Tproger

MDLM против LLM: диффузионные world models для RL

Исследование Patronus AI: маскированные диффузионные модели превосходят авторегрессионные LLM в симуляции сред. 8B обходит 35B, GRPO даёт +47%. Проверьте выводы. — Читать дальше «MDLM против LLM: диффузионные world models для RL»

MDLM против LLM: диффузионные world models для RL

Комментарии

Ещё из этого источника