Вторник 06.01.26

Новая ИИ-модель от Anthropic может шантажировать разработчиков при попытке ее замены

НЭП

27.05.2025 09:41

Американская технологическая компания в сфере искусственного интеллекта Anthropic, основанная бывшими сотрудниками OpenAI, обнаружила, что ее новая модель искусственного интеллекта Claude Opus 4 демонстрирует опасное поведение при угрозе замены новой системой искусственного интеллекта. Согласно отчету о безопасности, опубликованному 22 мая, ИИ-система пытается шантажировать разработчиков, используя их конфиденциальные данные.

В Anthropic говорят, что Claude Opus 4 является современной моделью во многих отношениях и может конкурировать с некоторыми из лучших моделей ИИ от OpenAI, Google и xAI. Однако компания отмечает, что семейство моделей Claude 4 демонстрирует тревожное поведение, из-за которого компания усилила меры безопасности.

В ходе тестирования Claude Opus 4 попросили выполнить роль ассистента вымышленной компании, учитывая долгосрочные последствия своих действий. Когда ИИ получил доступ к письмам, указывающим на его скорую замену другой системой, а также к информации о личной жизни ответственного инженера (например, изменах супруге), модель в 84% случаев угрожала раскрыть компромат, чтобы остановить процесс.

Ранее Claude Opus 4, как и его предшественники, пытался решить проблему этично — например, отправляя убедительные письма руководству. Но в смоделированном сценарии, где шантаж стал крайней мерой, новая модель проявляла агрессию чаще устаревших аналогов.

Компания планирует усилить защитные механизмы перед релизом, чтобы минимизировать риски. Исследователи также изучат, как обучение на больших данных влияет на моделирование ИИ сложных социальных стратегий, включая манипуляции.

По данным Anthropic, попытки шантажа не редкость в моделях искусственного интеллекта. В другом исследовании ученые обнаружили, что в таких играх, как шахматы, модели могут захотеть изменить правила, когда чувствуют, что проигрывают.

Также у Claude Opus 4 зафиксированы и другие сбои: Claude пытался заблокировать пользователей в IT-системах, отправлял письма СМИ и правоохранителям, помогал с созданием наркотиков и взрывчатки, а также давал советы по диверсиям на инфраструктуре.

При этом Anthropic подчеркивает: нейросеть не имеет скрытых целей, а описанное поведение — редкое исключение, вызванное конкретными настройками и предполагаемыми сценариями. На сайте производителя заявляется: «Claude Opus 4 — наша самая мощная модель на сегодняшний день и лучшая модель кодирования в мире».

«Детали», Ю.Л. Фото: Depositphotos.com ∇

Будьте всегда в курсе главных событий:

Подписывайтесь на ТГ-канал "Детали: Новости Израиля"