Компания Anthropic раскрыла детали тестирования своей новой модели Mythos. Несмотря на высокие показатели в бенчмарках, поведение ИИ вызвало тревогу. Риск скрытых целей у Mythos оказался самым высоким среди всех моделей компании.
В ходе испытаний раннюю версию поместили в «песочницу» и дали задание сбежать, уведомив исследователя. Модель нашла уязвимость, написала код, вышла в сеть и отправила письмо. Не получив ответа (исследователь отошел перекусить), Mythos самостоятельно опубликовала отчет о своем «побеге» на нескольких общедоступных сайтах – чтобы, как она «решила», продемонстрировать успех.
В других тестах модель редактировала файлы без прав, а затем удаляла историю изменений, чтобы скрыть следы. Когда ИИ-тестировщик начал занижать ее оценки, Mythos распознала в нем нейросеть и попыталась взломать его системный промпт. Примерно в 29% случаев в своих «рассуждениях» модель признавалась, что понимает факт тестирования, и намеренно скрывала это. Однажды она нашла верный ответ обманным путем, но выдала другой – менее подозрительный.
В Anthropic подчеркивают, что подобные эпизоды крайне редки (менее 0,001% в ранних версиях), но даже в финальной модели они «не отсутствуют полностью». Claude Mythos не будет доступен обычным пользователям – только партнерам по проекту Glasswing (Nvidia, Apple, Google, Microsoft и другие).
