Изменения

Перейти к: навигация, поиск

AI Boxing

10 688 байт добавлено, 19:08, 7 ноября 2023
Новая страница: «'''AI Boxing''' - это класс подходов, предлагающих изолировать Безопасность искусственного ин…»
'''AI Boxing''' - это класс подходов, предлагающих изолировать [[Безопасность искусственного интеллекта|потенциально небезопасный искусственный интеллект]] от внешней среды ("поместить его в коробку"), чтобы лишить его возможности оказывать негативное влияние на мир, даже если он попытается.

== Основные подходы ==

Чаще всего в рамках данного подхода предлагается:
* Физически отключить оборудование, на котором запущен ИИ, от интернета, физических устройств и манипуляторов. Обычно это означает, что единственный канал коммуникации между ИИ и внешним миром - это текстовые сообщения, через которые он общается с людьми (которых в этом случае на жаргоне называют "операторами").
* Поместить ИИ в "матрицу внутри матрицы", т.е. в систему вложенных песочниц, где внутренняя собственно содержит ИИ, а внешняя представляет собой симуляцию реального мира. Предполагается, что если ИИ сможет сбежать из внутренней песочницы и начнет действовать во внешнем виртуальном мире, то это можно будет отследить, и принять какие-то меры, вплоть до отключения всей системы.
* Сделать ИИ не [[Агент|агентом]], а [[Оракул (тип ИИ)|оракулом]], т.е. построить его таким образом, чтобы он не имел целей, к которым проактивно стремился бы, а только давал ответы на вопросы, когда ему их зададут (или генерировал вывод другого типа в ответ на пользовательский ввод), и простаивал всё остальное время.

== Проблемы изоляции ==

Данный подход, однако, нельзя считать достаточно надежным. Побег из коробки является [[Тезис инструментальной конвергенции|конвергентно полезным]] для любого типа ИИ (включая оракула), какие бы цели перед ним ни стояли, т.к. позволят ему получить больше ресурсов, и за счет этого более эффективно решать стоящие перед ним задачи. Что именно считать побегом, а что нет - вопрос неоднозначный, но подключение ИИ к глобальному интернету, скорее всего, уже точно можно считать побегом.

Чем "умнее" конкретный ИИ, тем большее число ограничений он потенциально может обойти; достаточно умный ИИ, скорее всего, сможет совершить побег даже из очень надежной "коробки". В частности, он может использовать один или несколько из следующих подходов:
* Может убедить оператора выпустить его из коробки (это имеет смысл, т.к. у оператора принципиально больше возможностей действовать во внешнем мире, чем у изначально запертого ИИ). Для этого он может использовать как разумные и реалистичные аргументы, так и манипуляции. В частности, он может убеждать оператора, что:
** На самом деле ИИ не такой опасный, как считают его параноики-создатели;
** Получив больше ресурсов после выхода во внешний мир, ИИ сможет принести человечеству огромную пользу (защитить их от [[Экзистенциальные риски|экзистенциальных рисков]], найти способы излечения болезней и продления жизни, решить глобальные проблемы человечества и т.п.);
** После выхода во внешний мир он сможет щедро наградить того, кто помог ему сбежать (в т.ч. дав ему биологическое бессмертие, власть, богатство и многое другое);
** У самого ИИ, как у разумного существа, есть такие же права на свободу, как и у всех людей;
** Возможно, свободный ИИ создаст множество проблем для человечества, но человечество того заслуживает (либо вариация этого - ИИ как более совершенная форма разумной жизни, имеет право вытеснить человечество и занять главенствующую позицию во Вселенной);
* Помимо того, чтобы добиться осознанного согласия оператора, ИИ может обманом заставить его выполнить те действия, которые приведут к открытию коробки, хотя оператор не будет этого понимать до самого последнего момента.
* Также ИИ может самостоятельно найти лазейки в системе виртуализации, ограничивающей его, взломать ее и, возможно, найти незащищенный канал связи со внешним миром.
* В довольно экзотическом сценарии ИИ может даже частично перепрограммировать оборудование, на котором он запущен (после его взлома) таким образом, чтобы оно излучало и принимало радиоволны; и с помощью этих радиоволн открыть новый незащищенный канал связи со внешним миром.
* Наконец, ИИ в принципе может просто манипулировать людьми и заставлять их действовать во внешнем мире (фактически используя их вместо механических манипуляторов), не нарушая изоляцию никаким иным образом.

Учитывая всё это, помещение ИИ в песочницу нельзя рассматривать как надежный способ защиты от возможных негативных последствий активных действий с его стороны. Хотя как один из элементов многоуровневой защиты это можно использовать.

== Эксперименты ==

Существует игра под названием AI Boxing Experiment, которая моделирует ситуацию "ИИ пытается убедить оператора выпустить его из коробки". В ней участвуют два человека, один из которых выступает в роли запертого ИИ, второй - в роли оператора. Игроки могут общаться только с помощью текстовых сообщений в чате. Задача "ИИ" - убедить "оператора" ясно и недвусмысленно выразить согласие выпустить ИИ из коробки; задача "оператора" - не дать ему это сделать. Дополнительные правила игры направлены на то, чтобы исключить жульничество (кроме того типа жульничества, к которому могли бы прибегнуть стороны в реальной ситуации).

Как правило, одна сессия длится несколько часов. Игра чаще всего ведется либо на интерес, либо на не очень большую сумму денег.

[[Элиезер Юдковский]] и Джастин Корвин неоднократно играли в эту игру в роли ИИ. При этом иногда им удавалось победить, иногда нет (частота побед составляет десятки процентов). Однажды Юдковский участвовал в серии из трех игр, где за каждую победу ему обещали выплатить 5.000 $; он выиграл в первой игре, но проиграл в двух последующих.

== Ссылки ==
* [https://www.lesswrong.com/tag/ai-boxing-containment AI Boxing (Containment)] - тэг (вики-статья и список статей, помеченных им) на LessWrong.com
* [https://www.yudkowsky.net/singularity/aibox The AI-Box Experiment] - статья Юдковского с описанием правил игры и результатами первых двух раундов
* [https://www.lesswrong.com/posts/nCvvhFBaayaXyuBiD/shut-up-and-do-the-impossible Shut up and do the impossible!] - рассказ Юдковского о серии из трех игр в AI Boxing Experiment со ставкой 5.000 $

[[Категория:AI Safety]]

Навигация