Новый метод для LLM показал невероятный результат — 99.9% на AIME 2025 с открыт…

Новый метод для LLM показал невероятный результат — 99.9% на AIME 2025 с открыт...

🚀 Новый метод для LLM показал невероятный результат — 99.9% на AIME 2025 с открытыми моделями!

Метод называется DeepConf.
Его суть — модель сама оценивает, насколько уверена в каждом токене, и отбрасывает слабые рассуждения ещё во время генерации.

📌 В чём отличие от классики
Обычно точность повышают через «параллельное мышление»: генерируют сотни версий ответа и берут то, за что проголосовало большинство. Это работает, но тратит кучу токенов и даёт всё меньший прирост.

DeepConf вместо этого:
– Считает «уверенность» на уровне токенов
– Если видит слабое место в цепочке рассуждений — обрывает её
– Оставляет только сильные варианты
– В итоге: меньше токенов (−84.7%) и выше точность

🔎 Как меряют уверенность
Token confidence — уверенность на каждом шаге
Group confidence — средняя по окну (видны локальные сбои)
Tail confidence — уверенность в конце рассуждения (там часто ошибки)
Lowest group confidence — худший участок трассы, сигнал «отбросить»

Два режима
Offline: сгенерировали много вариантов → оставили только самые уверенные → проголосовали
Online: модель пишет рассуждение и сама останавливается, если уверенность падает → не жжёт токены впустую

Итог: DeepConf — это «надстройка при запуске» без обучения и настроек.
Точность растёт, токены экономятся.

📄 Подробнее

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *