Андрей Карпаты нашел идеальный баланс токенов и параметров для обучения LLM.Анд…

Андрей Карпаты нашел идеальный баланс токенов и параметров для обучения LLM.Анд...

📌 Андрей Карпаты нашел идеальный баланс токенов и параметров для обучения LLM.

Андрей Карпаты опубликовал результаты экспериментов по оптимизации претрейна языковых моделей в условиях фиксированного бюджета.

Чтобы найти наиболее эффективный способ расходования вычислительных ресурсов, он провел серию тестов на сервере с 8х GPU H100, обучив 11 моделей разного размера при одинаковых затратах на вычисления.

🟡Главный вывод: существует «золотое сечение».

Карпаты обнаружил, что по мере увеличения мощностей оптимальное количество параметров и тренировочных токенов растут синхронно. Эмпирическое правило для протестированных конфигураций: на 1 параметр модели должно приходиться примерно 8 токенов обучающей выборки.

Если модель слишком мала, она не усваивает достаточно информации; если слишком велика — бюджет заканчивается раньше, чем она успевает обучиться.

Для инженеров этот рецепт позволяет заранее планировать архитектуру и бюджет, избегая создания заведомо неэффективных моделей.

Традиционно, все эксперименты Андрея открыты и их можно повторить самостоятельно.

🔜 Погрузиться в детали экспериментов

@ai_machinelearning_big_data

#AI #ML #LLM #Karpathy

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *