📌 Андрей Карпаты нашел идеальный баланс токенов и параметров для обучения LLM.
Андрей Карпаты опубликовал результаты экспериментов по оптимизации претрейна языковых моделей в условиях фиксированного бюджета.
Чтобы найти наиболее эффективный способ расходования вычислительных ресурсов, он провел серию тестов на сервере с 8х GPU H100, обучив 11 моделей разного размера при одинаковых затратах на вычисления.
🟡Главный вывод: существует «золотое сечение».
Карпаты обнаружил, что по мере увеличения мощностей оптимальное количество параметров и тренировочных токенов растут синхронно. Эмпирическое правило для протестированных конфигураций: на 1 параметр модели должно приходиться примерно 8 токенов обучающей выборки.
Если модель слишком мала, она не усваивает достаточно информации; если слишком велика — бюджет заканчивается раньше, чем она успевает обучиться.
Для инженеров этот рецепт позволяет заранее планировать архитектуру и бюджет, избегая создания заведомо неэффективных моделей.
Традиционно, все эксперименты Андрея открыты и их можно повторить самостоятельно.
🔜 Погрузиться в детали экспериментов
@ai_machinelearning_big_data
#AI #ML #LLM #Karpathy
View Source
Просмотры: 148