OpenMythos: с нуля воссоздали Claude Mythos на PyTorch

Kye Gomez, основатель swarms, опубликовал OpenMythos. Это открытая теоретическая реконструкция архитектуры Claude Mythos, собранная с нуля на PyTorch по первым принципам и доступной исследовательской литературе.
Под капотом зацикленный трансформер с роутингом через Mixture-of-Experts. Глубина достигается не наращиванием новых слоёв, а итеративным применением одного и того же блока с общими весами, а разреженная активация экспертов даёт условные вычисления на каждом шаге.
Автор проверяет гипотезу: если рекурсивно гонять фиксированный параметризованный блок и подмешивать sparse MoE, можно получить лучший компромисс между качеством и стоимостью инференса и увидеть эмерджентный многошаговый reasoning без разрастания параметров.
Ключевой тезис: Mythos это Recurrent-Depth Transformer, где фиксированный набор весов применяется итеративно T раз внутри одного forward pass. В отличие от классического chain-of-thought, рассуждение происходит целиком в непрерывном латентном пространстве, без промежуточной генерации токенов между шагами.
В схеме есть Prelude из плотных блоков, зацикленный Shared block с loop-index эмбеддингами, LoRA-адаптерами по глубине, MoE top-K роутингом и ACT-халтингом для раннего выхода. На выходе RMSNorm и LM head с весами, связанными с эмбеддингом.
Это не релиз весов от Anthropic, а попытка сообщества собрать правдоподобную реализацию похожей идеи на основе публичных данных. Материал интересен тем, кто копает в сторону recurrent-depth моделей, латентного reasoning и эффективных MoE.
Источник: https://x.com/KyeGomezB/status/2045659150340723107

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *