🌟 OpenMathInstruct-2: математический датасет и набор моделей от NVIDIA.
OpenMathInstruct-2 состоит из 14 млн. пар “вопрос-решение” (примерно 600 тысяч уникальных вопросов) и является одним из крупнейших общедоступных наборов данных для обучения LLM в математике.
Набор данных создан на основе Llama-3.1-405B-Instruct путем синтеза решений для существующих вопросов из наборов данных MATH и GSM8K и генерации новых задач и решений.
Результаты абляционных экспериментов, которые проводились для поиска оптимальных параметров синтеза, показали, что:
🟢формат решения имеет значение, причем чрезмерно подробные решения негативно сказываются на производительности модели;
🟢данные, сгенерированные сильной моделью-учителем, превосходят по качеству данные, полученные от более слабой модели;
🟢процесс обучения устойчив к наличию до 20% решений низкого качества;
🟢разнообразие вопросов имеет решающее значение для масштабирования данных.
Итоговые данные, включенные в датасет прошли тщательную деконтаминацию с использованием конвейера lm-sys
и ручной проверки на поиск дубликатов с тестовыми наборами данных.
OpenMathInstruct-2 показал высокую эффективность при обучении LLM.
Модель Llama3.1-8B-Base, обученная на OpenMathInstruct-2, превзошла Llama3.1-8B-Instruct на 15,9% по точности на наборе данных MATH, а OpenMath2-Llama3.1-70B обошла Llama3.1-70B-Instruct на 3,9%.
Датасет выпущен в 3-х размерностях: полный набор (примерно 7.5 GB) и уменьшенные версии train_1M (640 Mb), train_2M (1.3 Gb) и train_5M (3.1 Gb).
▶️ Модели, дообученные на этом датасете:
🟠OpenMath2-Llama3.1-70B, в формате Nemo, квантованные версии GGUF (от 3-bit до 8-bit);
🟠OpenMath2-Llama3.1-8B, в формате Nemo, квантованные версии GGUF (от 2-bit до 8-bit).
📌Лицензирование датасета : CC-BY-4.0 License.
📌Лицензирование моделей: Llama 3.1 Community License.
🟡Набор моделей
🟡Arxiv
🟡Датасет
@ai_machinelearning_big_data
#AI #ML #LLM #MATH #NVIDIA #Dataset