LLaMa-2: вышла лучшая опенсорсная языковая модель

Авторы обновили обучающий датасет, сделав его чище и больше (2T токенов), добавили более быстрый grouped-query attention, удлинили контекст до 4k токенов и учили в несколько этапов: pretraining, supervised fine-tuning, RLHF.

Обучили 2 группы моделей: Llama 2 и Llama 2-Chat:

— Llama 2 обучена на открытых данных (размер корпуса увеличилина 40% в сравнение с Llama 1), удвоили контекст, используя adopted grouped-query attention (Ainslie et al., 2023).

— Llama 2-Chat это зафайтюненная с помощью RLHF (Reinforcement learning from human feedback) версия Llama 2, оптимизированная для диалогов (как Chat-GPT или GPT-4)

Доступны предварительно обученные и зафайнтюненые модели с параметрами 7B, 13B и 70B.

Опенсорснули Llama 2 с параметрами:

— Llama2-7B

— Llama2-13B

— Llama2-70B

По метрикам это лучшая опенсорс LLM-ка, а по качеству Llama2-Chat-70B, местами, сопоставимая с Chat-GTP 3.5

Размер контекста: 4к.

Тренировались модели на 2 триллионах токенов, что в два раза больше чем LLaMa 1.

🖥 Github: https://github.com/facebookresearch/llama

⭐️ Demo: https://huggingface.co/blog/llama2

🤗Hugging face: https://huggingface.co/meta-llama/Llama-2-70b

ai_machinelearning_big_data

+1
0
+1
2
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *