ИИ научился гуглить перед тем, как рисовать

Все генеративные модели изображений сегодня работают из заморожённой памяти. Попросите нарисовать портрет архитектора, получившего Притцкеровскую премию в 2024 году, с его именем на табличке, и модель либо выдаст галлюцинацию, либо вообще откажется. Знания ограничены датой среза, и точность для актуальных задач становится невозможной.
Исследователи из CUHK и UC Berkeley построили агента Gen-Searcher, который решает эту проблему в лоб: прежде чем генерировать хоть один пиксель, агент идёт в интернет и ищет нужную информацию.
Схема работы такая. Вы даёте промпт, требующий реальных знаний: знаменитость, архитектурный объект, персонаж игры с конкретными характеристиками, химическое соединение с точными значениями. Gen-Searcher анализирует, что именно нужно найти, проводит многошаговый веб-поиск, извлекает референсные изображения для визуальной привязки и при необходимости просматривает страницы целиком, а не только сниппеты. После этого он собирает детальный промпт вместе с референсами и передаёт всё это генератору изображений. Генератор наконец получает то, что нужно для корректного результата.
Обучающий датасет пришлось собирать с нуля, потому что подобных данных просто не существовало. 16 000 примеров: Gemini сгенерировал поисковые промпты по 20 категориям, сам же сыграл роль поискового агента для построения траекторий, а затем синтезировал эталонные изображения.
Ключевой момент в дизайне вознаграждения на этапе RL. Чистая награда за изображение слишком шумная: даже правильная информация может привести к плохой картинке из-за слабого генератора. Чистая текстовая награда не учитывает, привели ли собранные данные к хорошей визуализации. Авторы объединили оба сигнала в пропорции 50/50, и аблация подтверждает: по отдельности ни один из них не работает.
Цифры говорят сами за себя. На бенчмарке KnowGen базовый Qwen-Image дал 14.98 K-Score, а с Gen-Searcher это стало 31.52 – прирост в 16 пунктов. Базовый Seedream поднялся с 50.38 до 53.30.
Самое интересное: Gen-Searcher обучали с Qwen-Image в качестве генератора, но политика поиска и сбора данных без дополнительного обучения переносится на Seedream и другие бэкенды. Поисковый агент обобщается между разными генераторами.
Проект: https://gen-searcher.vercel.app/


