Самые интересные новости машинного обучения 13.12.2024
✔️ OpenAI расширяет возможности голосового режима ChatGPT.
OpenAI представила обновленный голосовой режим ChatGPT, который теперь поддерживает функции демонстрации экрана и распознавания изображений. Благодаря этому ChatGPT может анализировать контекст происходящего на экране смартфона или компьютера и давать более точные инструкции. Русский язык – поддерживается.
Обновленный голосовой режим уже доступен в мобильных приложениях для пользователей Team, а также для большинства подписчиков Pro и Plus. В ближайшее время функция станет доступна для европейских пользователей Pro и Plus, а в начале следующего года – для пользователей Enterprise и Edu.
openai.com (https://openai.com/12-days/)
✔️ Midjourney представила Patchwork, инструмент для создания миров.
Patchwork – это бесконечное полотно, поддерживаемое искусственным интеллектом, которое позволяет создавать миры как персонально, так и совместно. С помощью этого инструмента можно развить расплывчатые идеи в полноценные истории, а также создавать необычные визуальные новеллы из изображений и текста.
В будущем Midjourney планирует сделать персонажей, миры и другие материалы, созданные в Patchwork, совместимыми с другими приложениями для сторителлинга. Это позволит, например, оживить персонажей в интерактивных сеттингах и редактировать текст истории с помощью новых интерфейсов для творческого письма.
updates.midjourney.com (https://updates.midjourney.com/patchwork-research-preview/)
✔️ Fujitsu представила 144-ядерный процессор Monaka для центров обработки данных.
Fujitsu представила прототип своего нового процессора Monaka, разработанного на архитектуре Armv9 и предназначенного для использования в центрах обработки данных. Процессор включает 144 ядра, распределенных по четырем 36-ядерным чиплетам, изготовленным по 2-нм техпроцессу TSMC.
Чиплеты расположены поверх SRAM-плиток, произведенных по 5-нм техпроцессу, и соединены с ними с помощью гибридной медной связи. Monaka также оснащен контроллером памяти DDR5, интерфейсом PCIe 6.0 с CXL 3.0 для подключения ускорителей. Ожидается, что Monaka будет доступен в 2027 финансовом году.
tomshardware.com (https://www.tomshardware.com/pc-components/cpus/fujitsu-flaunts-144-core-monaka-cpu-2nm-and-5nm-chiplets-soic-and-cowos-packaging)
✔️ Ученые предлагают создать виртуальные клетки тканей человека с помощью ИИ.
Группа исследователей из Стэнфордского университета, Genentech и Chan-Zuckerberg Initiative считают, что современные достижения в области ИИ и большие массивы экспериментальных данных о биологии человека открывают беспрецедентные возможности для моделирования живых клеток.
Виртуальная клетка сможет воспроизводить поведение молекул, клеток, а в будущем – тканей и органов человека. Такая модель позволит глубже понять принципы работы здоровых клеток и выявить причины заболеваний. По мнению авторов, успешная виртуальная клетка должна обладать универсальностью, предсказывать функции и поведение клеток, а также позволять проводить эксперименты “in silico” для проверки гипотез.
news.stanford.edu (https://news.stanford.edu/stories/2024/12/scientists-call-for-all-out-global-effort-to-create-an-ai-virtual-cell)
✔️ Phi-4 – новая блестящая работа Microsoft
Модель с параметрами 14B работает наравне с GPT-4o-mini и недавно выпущенной Llama-3.3-70B.
→ Модель достигает точности 91,8% при решении математических задач AMC 10/12, превосходя Gemini Pro 1.5 и другие более крупные модели.
📌 Инновация в области данных
Инженеры Microsoft разработали сложные методы генерации синтетических данных, которые выходят за рамки традиционных подходов к предварительному обучению.
→ Возможности математического анализа
Модель демонстрирует особую эффективность при решении сложных математических задач, что свидетельствует о расширенных возможностях символьного анализа и логического вывода
→ Инновации обучения: новые методы, такие как поиск ключевых токенов (PTS) в DPO.
🛡️ Первоначальный выпуск был ограничен платформой Azure AI Foundry в рамках лицензионного соглашения Microsoft Research
(https://t.me/data_analysis_ml/2956)
✔️ Гарвардский университет и Google выпустят базу данных из 1 млн. книг для обучения ИИ.
База данных включает различные жанры, языки и авторов, включая Диккенса, Данте и Шекспира, которые больше не защищены авторским правом в силу своего возраста. Набор книг создан на основе многолетнего проекта сканирования книг Google Books, и Google будет участвовать в ее распространении.
База данных предназначена для того, чтобы “создать равные условия” доступа к массиву данных всем – от исследовательских лабораторий до стартапов в области ИИ, – кто хочет обучать свои LLM. В настоящее время база данных находится на стадии доработки и в скором времени будет доступна для широкого использования.
institutionaldatainitiative.org (https://institutionaldatainitiative.org/hello-world.html)