Откуда в обучении берётся nan: численная нестабильность в ML и почему всё считают в логарифмах

Многие ML‑инженеры знают, что нужно использовать CrossEntropyLoss, log_softmax и logsumexp. Гораздо меньше людей могут объяснить, что именно они спасают и почему без них обучение модели периодически превращается в генератор nan. Именно об этом и поговорим. Читать далее
Комментарии
Загрузка…





