LAION-5B: НОВАЯ ЭРА ОТКРЫТЫХ КРУПНОМАСШТАБНЫХ МУЛЬТИМОДАЛЬНЫХ НАБОРОВ ДАННЫХ

LAION-5B — датасет пар изображение-текст, собранных в Интернете. LAION-5B содержит более 5 миллиардов пар, что делает его крупнейшим среди аналогичных датасетов.

AION-5B был собран путем парсинга датасета Common Crawl для поиска изображений с описанием. Изображения были загружены и отфильтрованы с помощью CLIP, чтобы оставить только те изображения, содержание которых соответствует их текстовому описанию.

Всего датасет содержит 2,32 миллиарда изображений с текстом на английском языке, 2,26 миллиарда с текстом на других языках и 1,27 миллиарда, язык текста которых не удалось определить однозначно. Метки изображений также включает несколько индексов ближайших соседей.

Для датасета разработана веб-демонстрация семантического поиска и воспроизведение клипа, обученного на основе данных.

Цель разработки датасета — демократизация мультимодальных исследований в области искусственного интеллекта. Анологичные крупномасштабные датасеты, в частности, датасет OpenAI с 400 миллионами пар, не являются общедоступными.

Laion5B и LAION-400M могут, например, использоваться для обучения

Для обучения генеративных моделям изображений/текста, например авторегрессионные модели, такие как DALL-E, или диффузионные модели, такие как GLIDE.
Модели с контрастными потерями: самоконтролируемое обучение на парах изображение/текст с использованием контрастных потерь, например CLIP.
Модели классификации: например, выполнение нулевой классификации путем извлечения псевдометок из текста к набору данных.


Датасет: https://laion.ai/laion-5b-a-new-era-of-open-large-scale-multi-modal-datasets/

Примеры:

https://t.me/ai_machinelearning_big_data

Ответить