Новая ИИ-модель от Anthropic может шантажировать разработчиков при попытке ее замены

Новая ИИ-модель от Anthropic может шантажировать разработчиков при попытке ее замены

Американская технологическая компания в сфере искусственного интеллекта Anthropic, основанная бывшими сотрудниками OpenAI, обнаружила, что ее новая модель искусственного интеллекта Claude Opus 4 демонстрирует опасное поведение при угрозе замены новой системой искусственного интеллекта. Согласно отчету о безопасности, опубликованному 22 мая, ИИ-система пытается шантажировать разработчиков, используя их конфиденциальные данные.

В Anthropic говорят, что Claude Opus 4 является современной моделью во многих отношениях и может конкурировать с некоторыми из лучших моделей ИИ от OpenAI, Google и xAI. Однако компания отмечает, что семейство моделей Claude 4 демонстрирует тревожное поведение, из-за которого компания усилила меры безопасности.

В ходе тестирования Claude Opus 4 попросили выполнить роль ассистента вымышленной компании, учитывая долгосрочные последствия своих действий. Когда ИИ получил доступ к письмам, указывающим на его скорую замену другой системой, а также к информации о личной жизни ответственного инженера (например, изменах супруге), модель в 84% случаев угрожала раскрыть компромат, чтобы остановить процесс.

Ранее Claude Opus 4, как и его предшественники, пытался решить проблему этично — например, отправляя убедительные письма руководству. Но в смоделированном сценарии, где шантаж стал крайней мерой, новая модель проявляла агрессию чаще устаревших аналогов.

Компания планирует усилить защитные механизмы перед релизом, чтобы минимизировать риски. Исследователи также изучат, как обучение на больших данных влияет на моделирование ИИ сложных социальных стратегий, включая манипуляции.

По данным Anthropic, попытки шантажа не редкость в моделях искусственного интеллекта. В другом исследовании ученые обнаружили, что в таких играх, как шахматы, модели могут захотеть изменить правила, когда чувствуют, что проигрывают.

Также у Claude Opus 4 зафиксированы и другие сбои: Claude пытался заблокировать пользователей в IT-системах, отправлял письма СМИ и правоохранителям, помогал с созданием наркотиков и взрывчатки, а также давал советы по диверсиям на инфраструктуре.

При этом Anthropic подчеркивает: нейросеть не имеет скрытых целей, а описанное поведение — редкое исключение, вызванное конкретными настройками и предполагаемыми сценариями. На сайте производителя заявляется: «Claude Opus 4 — наша самая мощная модель на сегодняшний день и лучшая модель кодирования в мире».

«Детали», Ю.Л. Фото: Depositphotos.com

Будьте всегда в курсе главных событий:

Подписывайтесь на ТГ-канал "Детали: Новости Израиля"

Новости

В Париже завершился пятый раунд переговоров между Израилем и Сирией
Хаменеи не поверил в успокаивающие послания Израиля: "Лжецы"
В Израиле выявлен первый случай нового, агрессивного штамма обезьяньей оспы

Популярное

Воздушное движение над Грецией парализовано, названа вероятная причина хаоса

Сегодня, 4 января, воздушное пространство над Грецией было закрыто до 16:00. Причиной стал масштабный...

“Битуах леуми” опубликовал размеры пособий на 2026 год

Национальный институт страхования («Битуах леуми») опубликовал размеры пособий на 2026 год. Разные виды...

МНЕНИЯ