GPT-4 сыграла в DOOM и напугала исследователя. ИИ слишком легко научился эффективно убивать
DOOM вновь становится полем для эксперимента. На этот раз шутер не запускали на тостере, зато дали ИИ во всю порезвиться на уровнях
DOOM не только запускают на всевозможных платформах (игровых и не очень), но и просто экспериментируют с легендарным шутером. Один исследователь решил попробовать посадить GPT-4 поиграть в DOOM. Адриан де Винтер (Adrian de Wynter) испытал возможности языковой модели (ИИ) в видеоигре.
Для работы он взял не OpenAI GPT-4, которая не может запустить DOOM из-за ограничения на объём входных данных, выбор пал на мультимодальный вариант GPT-4V, который способен принимать изображения в качестве входных данных.
Исследователь не проводил какое-нибудь специальное обучение ИИ игре в DOOM, но всё же пришлось поработать. Он разработал компонент Vision для того, чтобы делать скриншоты из игрового движка и возвращать структурные описания состояния игры и «объединил это с моделью агента, которая вызывает GPT-4 для принятия решений на основе визуального ввода и предыдущей истории. Модели агента было велено преобразовывать свои ответы в команды, которые имеют значение для игрового движка».
То есть на вход подаётся картинка —> она «превращается» в текстовое описание того, что происходит перед игроком —> GPT-4 анализирует и принимает решение —> это решение транслируется в команду, которая отправляется в DOOM.
Подобная конструкция на базе GPT-4 способна перемещаться по уровню и открывать двери, стрелять и сражаться с врагами. Однако это всё же не «полноценный игрок» — есть определённые недостатки:
Если противник выходит за пределы экрана, то о его существовании «забывают» (при этом враг остаётся в живых и может продолжить наносить урон).
С ориентацией в пространстве у ИИ всё не очень хорошо, порой GPT-4 застревал
С рассуждениями у GPT-4 тоже проблемы — когда исследователь попросил объяснить причину принятия решения, то пояснения ИИ были плохими и включали «галлюцинации» (неверную информацию).
Этот эксперимент вызывает тревогу, исследователь пишет: «С точки зрения этики, весьма тревожно, насколько легко (а) мне было создать код, чтобы заставить модель выстрелить в кого-нибудь, и (б) чтобы модель точно выстрелила в кого-нибудь, не задумываясь над инструкциями».