Репост из: БлоGнот
Интересное исследование — оказывается, если подольше подумать, то результат окажется лучше. Исследователи из Hugging Face выложили результаты своего исследования, в ходе которого небольшие модели — Llama-3.2-1B и Llama-3.2-3B, — обошли в тесте на решение математических задач намного более мощные — Llama-3.1-8B и Llama-3.1-70B соответственно.
Исследователи использовали остроумный процесс, практически позволяющий маленьким моделям рассуждать во время решения задач, как это делают большие reasoning модели, с тем отличием, что маленькая модель это делает "вслух" — она генерирует решения, а оценивает результат специально обученная Llama-3.1-8B. Это оказывается достаточно для эффективного решения простых задач, а со сложными помогает справляться другая стратегия, когда маленькая модель генерирует промежуточные шаги, а верификатор оценивает качество этих шагов, вознаграждая модель в случае их правильности. То есть тут еще и аналог chain-of-thought получается.
Вам же тоже видится в этом прямая аналогия с человеческой школой?
Выгода от таких решений прямая — потратив чуть больше времени и вычислительных ресурсов на решение задачи, мы при этом решаем задачу моделью, которую можно развернуть на смартфоне, то есть экономя память. Авторы указывают, что пока очевидное использование такой стратегии — это решение математических задач и написание кода, но только потому, что в этих случаях существует определенное правильное решение для проверки.
https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute
Исследователи использовали остроумный процесс, практически позволяющий маленьким моделям рассуждать во время решения задач, как это делают большие reasoning модели, с тем отличием, что маленькая модель это делает "вслух" — она генерирует решения, а оценивает результат специально обученная Llama-3.1-8B. Это оказывается достаточно для эффективного решения простых задач, а со сложными помогает справляться другая стратегия, когда маленькая модель генерирует промежуточные шаги, а верификатор оценивает качество этих шагов, вознаграждая модель в случае их правильности. То есть тут еще и аналог chain-of-thought получается.
Вам же тоже видится в этом прямая аналогия с человеческой школой?
Выгода от таких решений прямая — потратив чуть больше времени и вычислительных ресурсов на решение задачи, мы при этом решаем задачу моделью, которую можно развернуть на смартфоне, то есть экономя память. Авторы указывают, что пока очевидное использование такой стратегии — это решение математических задач и написание кода, но только потому, что в этих случаях существует определенное правильное решение для проверки.
https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute