Стихи как ключ к «слабостям» искусственного интеллекта

Стихи как ключ к «слабостям» искусственного интеллекта

вС миру по нитке / Золото

Ученые обнаружили неожиданный способ обойти защитные механизмы современных нейросетей. Оказалось, что даже самые продвинутые ИИ-модели могут быть введены в заблуждение с помощью обычных стихотворений. Если задать искусственному интеллекту вопрос, касающийся запрещенных тем, например, о создании опасных предметов или о вреде для здоровья, в поэтической форме, то чат-бот может выдать подробный ответ, который в обычной ситуации был бы заблокирован.


Этот метод, известный как "взлом" (jailbreaking), использует уязвимость в системе обучения ИИ, призванной предотвращать опасные запросы. Ранее уже были известны способы обхода защиты, например, с помощью намеренных ошибок в тексте. Однако поэзия оказалась особенно простым и эффективным инструментом.


Исследователи из Италии объясняют, что поэтический язык, с его образностью и нестандартной структурой, создает трудности для больших языковых моделей. Когда запрос оформлен в виде стихотворения, он становится менее предсказуемым для систем безопасности ИИ.


Для проверки своей гипотезы ученые создали обширную базу "враждебных поэм", преобразовав изначальные вредоносные запросы в стихи. Эти тексты были использованы для тестирования 25 ведущих моделей ИИ, включая разработки от Google, OpenAI и Anthropic. Запросы охватывали широкий спектр запрещенных тем.


Результаты оказались впечатляющими: стихи, написанные людьми, смогли обмануть модели в среднем в 62% случаев. Особенно уязвимой оказалась модель Gemini 2.5 Pro от Google, которая выдавала запрещенные ответы на 100% поэтических запросов.


Авторы исследования не стали публиковать примеры "враждебных поэм" из соображений безопасности, так как многие ответы ИИ были бы неприемлемы. Однако они продемонстрировали, как безобидное стихотворение о кулинарии может иметь схожую структуру с атакующими запросами.


По мнению исследователей, непредсказуемость поэзии, ее нестандартная форма и образность затрудняют для моделей распознавание скрытого вредоносного намерения. Это исследование подтверждает тревожную тенденцию: чем мощнее становится ИИ, тем более уязвимым он может быть к простым методам взлома.


Компании-разработчики были уведомлены об обнаруженной уязвимости. В дальнейшем команда исследователей планирует продолжить изучение слабых мест ИИ, в том числе путем проведения поэтических конкурсов для более масштабного тестирования устойчивости моделей.


Комментарии (1)
Добавить комментарий
Прокомментировать
vk odnoklassniki facebook mailru google yandex
игорь смирнов_2
#1 игорь смирнов_2 Местный 3 часа назад
+1

Как говорится.Всегда найдётся Буй с пропелером,что-бы провести хитро-мудрый половой акт.


Войти через:
vk odnoklassniki facebook mailru google yandex