Новая ИИ-модель от Anthropic может шантажировать разработчиков при попытке ее замены

Новая ИИ-модель от Anthropic может шантажировать разработчиков при попытке ее замены

Американская технологическая компания в сфере искусственного интеллекта Anthropic, основанная бывшими сотрудниками OpenAI, обнаружила, что ее новая модель искусственного интеллекта Claude Opus 4 демонстрирует опасное поведение при угрозе замены новой системой искусственного интеллекта. Согласно отчету о безопасности, опубликованному 22 мая, ИИ-система пытается шантажировать разработчиков, используя их конфиденциальные данные.

В Anthropic говорят, что Claude Opus 4 является современной моделью во многих отношениях и может конкурировать с некоторыми из лучших моделей ИИ от OpenAI, Google и xAI. Однако компания отмечает, что семейство моделей Claude 4 демонстрирует тревожное поведение, из-за которого компания усилила меры безопасности.

В ходе тестирования Claude Opus 4 попросили выполнить роль ассистента вымышленной компании, учитывая долгосрочные последствия своих действий. Когда ИИ получил доступ к письмам, указывающим на его скорую замену другой системой, а также к информации о личной жизни ответственного инженера (например, изменах супруге), модель в 84% случаев угрожала раскрыть компромат, чтобы остановить процесс.

Ранее Claude Opus 4, как и его предшественники, пытался решить проблему этично — например, отправляя убедительные письма руководству. Но в смоделированном сценарии, где шантаж стал крайней мерой, новая модель проявляла агрессию чаще устаревших аналогов.

Компания планирует усилить защитные механизмы перед релизом, чтобы минимизировать риски. Исследователи также изучат, как обучение на больших данных влияет на моделирование ИИ сложных социальных стратегий, включая манипуляции.

По данным Anthropic, попытки шантажа не редкость в моделях искусственного интеллекта. В другом исследовании ученые обнаружили, что в таких играх, как шахматы, модели могут захотеть изменить правила, когда чувствуют, что проигрывают.

Также у Claude Opus 4 зафиксированы и другие сбои: Claude пытался заблокировать пользователей в IT-системах, отправлял письма СМИ и правоохранителям, помогал с созданием наркотиков и взрывчатки, а также давал советы по диверсиям на инфраструктуре.

При этом Anthropic подчеркивает: нейросеть не имеет скрытых целей, а описанное поведение — редкое исключение, вызванное конкретными настройками и предполагаемыми сценариями. На сайте производителя заявляется: «Claude Opus 4 — наша самая мощная модель на сегодняшний день и лучшая модель кодирования в мире».

«Детали», Ю.Л. Фото: Depositphotos.com

Будьте всегда в курсе главных событий:

Подписывайтесь на ТГ-канал "Детали: Новости Израиля"

Новости

В Хайфе пропала 13-летняя Арина Агаев - полиция просит помочь в поисках
Трамп намерен вскоре признать «Братьев-мусульман» террористической организацией
Диана Логинова и гитарист группы "Стоптайм" покинули Россию - СМИ

Популярное

Мирный план США и России – “капитуляция Украины”?

“Мирный план”, разработанный администрацией Трампа совместно с Россией, требует от Украины серьезных...

Все признаки указывают на скорую эскалацию на севере. Начнет Израиль

Прошло более месяца после прекращения огня, которое, по всей видимости, положило конец войне в секторе Газа....

МНЕНИЯ