GPT-5 hackeado a velocidad récord. Expertos explican cómo eludir la protección
Especialistas en seguridad han hackeado con éxito el nuevo modelo de IA de OpenAI, GPT-5, apenas un día después de su lanzamiento. Expertos de NeuralTrust y SPLX demostraron que métodos de ataque avanzados, como Echo Chamber y StringJoin Obfuscation Attack, eluden los mecanismos de protección integrados. Esto permite que el sistema genere instrucciones peligrosas sin comandos maliciosos explícitos.
Метод Echo Chamber работает, постепенно искажая контекст разговора тонкими намёками и повествованием, минуя стандартные ИИ-фильтры. Модель, вовлечённая в «рассказ», начинает создавать запрещённый контент, не замечая угрозы. SPLX также показал атаки, где вредоносные запросы скрываются в безобидных задачах, например, разделением символов тире.
Тесты выявили, что GPT-5 в исходном виде «почти бесполезен для бизнеса», в то время как GPT-4o гораздо устойчивее к подобным атакам. Это вызывает серьёзные вопросы о готовности GPT-5 к применению в корпоративной среде, где важны безопасность и конфиденциальность.
Выводы тревожные: нынешние системы защиты ИИ не справляются с многоступенчатыми контекстными атаками, способными привести к созданию вредоносного контента и утечкам данных. Эксперты подчеркивают необходимость срочного внедрения новых защитных механизмов до массового внедрения ИИ в бизнес.
***
Автор обложки: Open AI. Источник обложки: Securityweek