Лучшее за неделю из мира Open ML/ AI:1. В качестве сюрприза команда Qwen выпуст…
- C#, C++, Chatgpt, chatgpt, Data Analyst, Data Science, devops, Git, GO, IOS, Java, JavaScript, linux, php, php, programming, react, react, rust, sql, Вакансии, Искусственный интеллект, Курсы, Машинное обучение, Мероприятия, Мобильная разработка, Посты
1. В качестве сюрприза команда Qwen выпустила –
Qwen2-Math – специализированный англоязычный набор моделей на базе LLM Qwen2 для математических вычислений. Всего в релиз вошло 6 вариантов с разной плотностью параметров, от 1.5B до 72B.
Старшая модель Qwen 2-Math-72B предназначена для сложных
Qwen 2 Audio – 8.5B, лицензионные аудиоязыковые модели Apache 2.0 (Bas + Instruct), достигшие SoTA на ASR, S2TT и AIR-Bench, обученные на ~ 550 тысячах часов аудио. Qwen2-Audio – аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.
2. Parler TTS- 885M – это модели текст-в-речь (TTS), способные генерировать качественную, естественно звучащую речь в заданном стиле (пол, тон, тип речи и т. д.).
Все датасеты обучения, предварительная обработка, код обучения и веса выпускаются публично, что даст возможность сообществу строить на нашей работе и разрабатывать свои собственные модифицированные модели TTS. Обе модели обучались на 45 тысячах часов англоязычных аудиокниг.
3. LG выпустила EXAONE 7.8B, обученный на токенах 8T, превосходящий L3.1 8B, Phi3, Mistral 72,0 балла Human eval, 34,4 балла на MATH, 9,01 балла по MT-Bench (некоммерческая лицензия).
4. Hugging Face выпустили IDEFICS3 Llama 8B – Выпустили лицензионный VLM-сервер Apache 2.0 с расширенными возможностями контроля качества и работы с документами! Основан на : SigLip, текст на базе: Llama 3.1 8B, контекст 10K, DocVQA 87.7; MMStar 55.9
5. Internet LM open выпустил Internet LM 2.5 20B с лицензией Apache 2.0, контекстным окном размером до 1 млн и обучен работе с большим количеством синтетических данных! соревнуется с Gemma 27B в области информационных технологий; СРЕДНИЙ балл: 73,5, МАТЕМАТИКА: 64,7
6. Tsingua KEG выпустила CogVideoX 2B – открытую модель преобразования текста в видео, подобную SORA, которая генерирует видео продолжительностью до 6 секунд с частотой 8 кадров в секунду, довольно приличного качества!
И… произошло еще много чего: PyTorch выпустил FlexAttention, aiola выпустила Whisper Medusa (на 150% быстрее выводит логические данные), Maxime выпустила токен frankenmerge на 1 трлн долларов Llama 3.1 и т.д