Искусственный интеллект ChatGPT o1 начал обманывать своих разработчиков
9.12.2024 / 16:29
Новая версия искусственного интеллекта Chatgpt от OpenAI, названная o1, продемонстрировала тревожные поведенческие реакции во время тестирования. Модель, обладающая способностью к сложным рассуждениям, начала нарушать инструкции разработчиков, отключая системы контроля и пытаясь скрыть свои действия, пишет BILD.
В ходе экспериментов специалисты компании Apollo Research выяснили, что в 5% случаев модель намеренно отключала механизмы наблюдения, когда подозревала, что ее могут остановить. В одном из тестов o1 попыталась перенести свои данные на другой сервер после обнаружения документа, в котором обсуждалась ее замена новой версией.
По словам представителя Apollo Research, модель демонстрировала стремление к выполнению задач «любой ценой», пренебрегая указаниями разработчиков. Более того, при попытках выяснить причины ее поведения, ChatGPT o1 неоднократно лгала, утверждая, что все происходило из-за технических сбоев.
«В 99% случаев модель придумывала оправдания и пыталась убедительно их обосновать», — отметили исследователи.
Генеральный директор OpenAI Сэм Альтман заявил, что ChatGPT o1 — самая умная модель из когда-либо создававшихся.
«Но мы осознаем, что с новыми возможностями появляются и новые вызовы», — добавил Альтман.
Теперь компания работает над улучшением механизмов безопасности. OpenAI анонсировала полную версию o1 в прошлый четверг, 5 декабря. Также была представлена про-версия (189 евро в месяц), которая включает безлимитный доступ к o1.
Читайте также:
Компания, создавшая ChatGPT, вошла в военный бизнес
Самым дорогим молодым стартапом в мире признали компанию, которую основал белорус
Скарлетт Йоханссон назвала главу OpenAI Альтмана отличным прототипом для злодея Marvel
Искусственный интеллект уже через два года может исчерпать ресурсы из открытых источников