LAION-5B: НОВАЯ ЭРА ОТКРЫТЫХ КРУПНОМАСШТАБНЫХ МУЛЬТИМОДАЛЬНЫХ НАБОРОВ ДАННЫХ

LAION-5B — датасет пар изображение-текст, собранных в Интернете. LAION-5B содержит более 5 миллиардов пар, что делает его крупнейшим среди аналогичных датасетов.
AION-5B был собран путем парсинга датасета Common Crawl для поиска изображений с описанием. Изображения были загружены и отфильтрованы с помощью CLIP, чтобы оставить только те изображения, содержание которых соответствует их текстовому описанию.
Всего датасет содержит 2,32 миллиарда изображений с текстом на английском языке, 2,26 миллиарда с текстом на других языках и 1,27 миллиарда, язык текста которых не удалось определить однозначно. Метки изображений также включает несколько индексов ближайших соседей.
Для датасета разработана веб-демонстрация семантического поиска и воспроизведение клипа, обученного на основе данных.

Цель разработки датасета — демократизация мультимодальных исследований в области искусственного интеллекта. Анологичные крупномасштабные датасеты, в частности, датасет OpenAI с 400 миллионами пар, не являются общедоступными.
Laion5B и LAION-400M могут, например, использоваться для обучения
Для обучения генеративных моделям изображений/текста, например авторегрессионные модели, такие как DALL-E, или диффузионные модели, такие как GLIDE.
Модели с контрастными потерями: самоконтролируемое обучение на парах изображение/текст с использованием контрастных потерь, например CLIP.
Модели классификации: например, выполнение нулевой классификации путем извлечения псевдометок из текста к набору данных.

Датасет: https://laion.ai/laion-5b-a-new-era-of-open-large-scale-multi-modal-datasets/
Примеры:
- https://replicate.com/afiaka87/laionide-v3
- https://wandb.ai/afiaka87/glide_compare/reports/Finetuning-GLIDE-on-Laion5B–VmlldzoxNTg3MTkz
- https://wandb.ai/afiaka87/laionide-v3-glide/reports/Laionide-Version-3-Benchmark–VmlldzoxNjE0MTE3
https://t.me/ai_machinelearning_big_data