LLaMa-2: вышла лучшая опенсорсная языковая модель
Авторы обновили обучающий датасет, сделав его чище и больше (2T токенов), добавили более быстрый grouped-query attention, удлинили контекст до 4k токенов и учили в несколько этапов: pretraining, supervised fine-tuning, RLHF.
Обучили 2 группы моделей: Llama 2 и Llama 2-Chat:
— Llama 2 обучена на открытых данных (размер корпуса увеличилина 40% в сравнение с Llama 1), удвоили контекст, используя adopted grouped-query attention (Ainslie et al., 2023).
— Llama 2-Chat это зафайтюненная с помощью RLHF (Reinforcement learning from human feedback) версия Llama 2, оптимизированная для диалогов (как Chat-GPT или GPT-4)
Доступны предварительно обученные и зафайнтюненые модели с параметрами 7B, 13B и 70B.
Опенсорснули Llama 2 с параметрами:
— Llama2-7B
— Llama2-13B
— Llama2-70B
По метрикам это лучшая опенсорс LLM-ка, а по качеству Llama2-Chat-70B, местами, сопоставимая с Chat-GTP 3.5
Размер контекста: 4к.
Тренировались модели на 2 триллионах токенов, что в два раза больше чем LLaMa 1.
🖥 Github: https://github.com/facebookresearch/llama
⭐️ Demo: https://huggingface.co/blog/llama2
🤗Hugging face: https://huggingface.co/meta-llama/Llama-2-70b