GPT-5 Hacked at Record Speed. Experts Explain How to Bypass Security

Метод Echo Chamber работает, постепенно искажая контекст разговора тонкими намёками и повествованием, минуя стандартные ИИ-фильтры. Модель, вовлечённая в «рассказ», начинает создавать запрещённый контент, не замечая угрозы. SPLX также показал атаки, где вредоносные запросы скрываются в безобидных задачах, например, разделением символов тире.

Тесты выявили, что GPT-5 в исходном виде «почти бесполезен для бизнеса», в то время как GPT-4o гораздо устойчивее к подобным атакам. Это вызывает серьёзные вопросы о готовности GPT-5 к применению в корпоративной среде, где важны безопасность и конфиденциальность.

Выводы тревожные: нынешние системы защиты ИИ не справляются с многоступенчатыми контекстными атаками, способными привести к созданию вредоносного контента и утечкам данных. Эксперты подчеркивают необходимость срочного внедрения новых защитных механизмов до массового внедрения ИИ в бизнес.

***

Автор обложки: Open AI. Источник обложки: Securityweek