Назад
Habr

Ни одна ошибка не нова: почему провал ИИ в First Proof был предсказуем заранее

В начале июня 2026 вышли результаты First Proof Second Batch — первого матбенчмарка, где задачи заведомо не попадали в обучающие данные, а решения вслепую проверяли ~30 живых математиков по журнальным правилам. В статье — разбор по первоисточникам: почему модели «размахивают руками» на трудном шаге, как одна система «доказала» ложь через несуществующую ссылку, почему «совет судей» за $4 799 не пробил потолок голой модели за $117 — и что со всем этим делать инженеру вместо «модель проверяет модель». Читать далее

Комментарии

Загрузка…

Открыть источник