⚡️ 6 файлов – это все что нужно для архитектуры Llama 3.1
Andrej Кarpathy в репозитории на Github запушил проект nano-llama31.
nano-llama31 – то же самое, что nanoGPT для GPT-2. То есть, это минимальная, свободная от зависимостей реализация архитектуры Llama 3.1, и она может очень просто обучать, настраивать и делать выводы. Это сравнимо с официальным выпуском кода от Meta и реализацией huggingface, которые имеют более сильные зависимости и гораздо больший объем кода.
Это еще пока очень ранний проект. Сейчас он требует довольно много VRAM, например, только обучение RMSNorm все еще занимает ощутимую часть моего 80-гигабайтного GPU. (c) автора
Планы:
🟢удалить лишнее, сделать красиво;
🟢сделать finetuning более полнофункциональным, более похожим на nanoGPT (смешанная точность, DDP, свистелки, лампочки и т.д.)
🟢добавить поддержку Chat model inference и finetuning, а не только Base model
🟢подумать про поддержку для Llama 3 models > 8B
🟢разобраться с варнингом по deprecated set_default_tensor_type
git clone https://github.com/meta-llama/llama-models.git
▪ Github
@ai_machinelearning_big_data
#llama #Кarpathy #nanoGPT
GitHub – karpathy/nano-llama31: nanoGPT style version of Llama 3.1
nanoGPT style version of Llama 3.1. Contribute to karpathy/nano-llama31 development by creating an account on GitHub.
View Source
Просмотры: 74