MTP у Qwen3.6 в llama.cpp обещает ×2 по скорости. Я прогнал ту же модель через своего агента — и получил обратное

Привет, Хабр. Меня зовут Лазутин Алексей, я не профессиональный разработчик. SEO, аудиты сайтов, куча рутины с CSV, curl, отчётами для программистов — вот мой цех. Код для себя пишу «как умею»: скрипты, Docker, копипаста с LLM. Если в архитектуре что-то покажется странным — вы, скорее всего, правы. Это не учебник по Python, а честный отчёт эксперимента, который мне самому было интересно повторить. Недавно на Хабре вышла статья «Qwen3.6 27B MTP… с 60 t/s до 130 t/s» — про Multi-Token Prediction, спекулятивное декодирование и то, что на чистой генерации кода MoE-модель с MTP может ускориться примерно в полтора–два раза без потери качества (lossless, если верить разбору sampling.cpp в llama.cpp). Я подумал: у меня как раз Qwen3.6-35B-A3B в LM Studio, плюс домашний агент Hermes в Docker — тот же стек, о котором пишут в духе «выжать больше из локальных LLM», только у меня не «один промпт в чат», а многоходовый агент с терминалом и файлами. Вопрос был простой: если включить MTP-вариант модели, станет ли быстрее и лучше то, чем я реально пользуюсь каждый день? Спойлер: в сырых t/s я не мерил. Я собрал свой бенчмарк агентских задач и дважды прогнал его — и цифры получились не такие, как в брошюре про MTP. Читать далее

MTP у Qwen3.6 в llama.cpp обещает ×2 по скорости. Я прогнал ту же модель через своего агента — и получил обратное

Комментарии

Ещё из этого источника