🔥
NVIDIA выпустила Llama-3.1-Nemotron-51BLlama-3.1-Nemotron-51B модель нового поколения, которая выводит на новый уровень соотношение точность/эффективность.
Сеть создана с использованием
Neural Architecture Search (NAS) и дистилляции от Llama-3.1-70B, эта модель предлагает 2.2x ускорение инференса без значительных потерь в точности.
Подробнее:📊
Производительность:▫️Пропускная способность: 6472 токенов/сек, что более чем в два раза быстрее исходной Llama-3.1-70B.
▫️И главное, модель поддерживает выполнение задач на одной NVIDIA H100 GPU, что значительно снижает стоимость и упрощает инференс.
⚙️
Основные инновации:▫️Архитектура оптимизирована с помощью NAS, что снижает нагрузку на память и вычислительные ресурсы.
▫️Плюс заюзали механизм Block-distillation, позволяющий уменьшить количество блоков без значительных потерь в точности.
📇
Blog NVIDIA🤗
Веса💻
Потестить бесплатно можно тут