<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
		<id>https://lesswrong.ru/wiki/index.php?action=history&amp;feed=atom&amp;title=AI_Boxing</id>
		<title>AI Boxing - История изменений</title>
		<link rel="self" type="application/atom+xml" href="https://lesswrong.ru/wiki/index.php?action=history&amp;feed=atom&amp;title=AI_Boxing"/>
		<link rel="alternate" type="text/html" href="https://lesswrong.ru/wiki/index.php?title=AI_Boxing&amp;action=history"/>
		<updated>2026-06-06T04:16:26Z</updated>
		<subtitle>История изменений этой страницы в вики</subtitle>
		<generator>MediaWiki 1.30.0</generator>

	<entry>
		<id>https://lesswrong.ru/wiki/index.php?title=AI_Boxing&amp;diff=3448&amp;oldid=prev</id>
		<title>ReverendBayes: Добавил ссылку на кастомный GPT</title>
		<link rel="alternate" type="text/html" href="https://lesswrong.ru/wiki/index.php?title=AI_Boxing&amp;diff=3448&amp;oldid=prev"/>
				<updated>2024-06-30T12:44:54Z</updated>
		
		<summary type="html">&lt;p&gt;Добавил ссылку на кастомный GPT&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr style=&quot;vertical-align: top;&quot; lang=&quot;ru&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: white; color:black; text-align: center;&quot;&gt;← Предыдущая&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: white; color:black; text-align: center;&quot;&gt;Версия 12:44, 30 июня 2024&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l38&quot; &gt;Строка 38:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Строка 38:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* [https://www.yudkowsky.net/singularity/aibox The AI-Box Experiment] - статья Юдковского с описанием правил игры и результатами первых двух раундов&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* [https://www.yudkowsky.net/singularity/aibox The AI-Box Experiment] - статья Юдковского с описанием правил игры и результатами первых двух раундов&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* [https://www.lesswrong.com/posts/nCvvhFBaayaXyuBiD/shut-up-and-do-the-impossible Shut up and do the impossible!] - рассказ Юдковского о серии из трех игр в AI Boxing Experiment со ставкой 5.000 $&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* [https://www.lesswrong.com/posts/nCvvhFBaayaXyuBiD/shut-up-and-do-the-impossible Shut up and do the impossible!] - рассказ Юдковского о серии из трех игр в AI Boxing Experiment со ставкой 5.000 $&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt;&amp;#160;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;* [https://chatgpt.com/g/g-BXRkRCn7D-ai-boxing-experiment AI Boxing Experiment GPT] - здесь можно сыграть в игру со специализированным ChatGPT&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Категория:AI Safety]]&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Категория:AI Safety]]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;

&lt;!-- diff cache key wiki:diff:version:1.11a:oldid:3237:newid:3448 --&gt;
&lt;/table&gt;</summary>
		<author><name>ReverendBayes</name></author>	</entry>

	<entry>
		<id>https://lesswrong.ru/wiki/index.php?title=AI_Boxing&amp;diff=3237&amp;oldid=prev</id>
		<title>ReverendBayes: Новая страница: «'''AI Boxing''' - это класс подходов, предлагающих изолировать Безопасность искусственного ин…»</title>
		<link rel="alternate" type="text/html" href="https://lesswrong.ru/wiki/index.php?title=AI_Boxing&amp;diff=3237&amp;oldid=prev"/>
				<updated>2023-11-07T19:08:34Z</updated>
		
		<summary type="html">&lt;p&gt;Новая страница: «&amp;#039;&amp;#039;&amp;#039;AI Boxing&amp;#039;&amp;#039;&amp;#039; - это класс подходов, предлагающих изолировать Безопасность искусственного ин…»&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;'''AI Boxing''' - это класс подходов, предлагающих изолировать [[Безопасность искусственного интеллекта|потенциально небезопасный искусственный интеллект]] от внешней среды (&amp;quot;поместить его в коробку&amp;quot;), чтобы лишить его возможности оказывать негативное влияние на мир, даже если он попытается.&lt;br /&gt;
&lt;br /&gt;
== Основные подходы ==&lt;br /&gt;
&lt;br /&gt;
Чаще всего в рамках данного подхода предлагается:&lt;br /&gt;
* Физически отключить оборудование, на котором запущен ИИ, от интернета, физических устройств и манипуляторов. Обычно это означает, что единственный канал коммуникации между ИИ и внешним миром - это текстовые сообщения, через которые он общается с людьми (которых в этом случае на жаргоне называют &amp;quot;операторами&amp;quot;).&lt;br /&gt;
* Поместить ИИ в &amp;quot;матрицу внутри матрицы&amp;quot;, т.е. в систему вложенных песочниц, где внутренняя собственно содержит ИИ, а внешняя представляет собой симуляцию реального мира. Предполагается, что если ИИ сможет сбежать из внутренней песочницы и начнет действовать во внешнем виртуальном мире, то это можно будет отследить, и принять какие-то меры, вплоть до отключения всей системы.&lt;br /&gt;
* Сделать ИИ не [[Агент|агентом]], а [[Оракул (тип ИИ)|оракулом]], т.е. построить его таким образом, чтобы он не имел целей, к которым проактивно стремился бы, а только давал ответы на вопросы, когда ему их зададут (или генерировал вывод другого типа в ответ на пользовательский ввод), и простаивал всё остальное время.&lt;br /&gt;
&lt;br /&gt;
== Проблемы изоляции ==&lt;br /&gt;
&lt;br /&gt;
Данный подход, однако, нельзя считать достаточно надежным. Побег из коробки является [[Тезис инструментальной конвергенции|конвергентно полезным]] для любого типа ИИ (включая оракула), какие бы цели перед ним ни стояли, т.к. позволят ему получить больше ресурсов, и за счет этого более эффективно решать стоящие перед ним задачи. Что именно считать побегом, а что нет - вопрос неоднозначный, но подключение ИИ к глобальному интернету, скорее всего, уже точно можно считать побегом.&lt;br /&gt;
&lt;br /&gt;
Чем &amp;quot;умнее&amp;quot; конкретный ИИ, тем большее число ограничений он потенциально может обойти; достаточно умный ИИ, скорее всего, сможет совершить побег даже из очень надежной &amp;quot;коробки&amp;quot;. В частности, он может использовать один или несколько из следующих подходов:&lt;br /&gt;
* Может убедить оператора выпустить его из коробки (это имеет смысл, т.к. у оператора принципиально больше возможностей действовать во внешнем мире, чем у изначально запертого ИИ). Для этого он может использовать как разумные и реалистичные аргументы, так и манипуляции. В частности, он может убеждать оператора, что:&lt;br /&gt;
** На самом деле ИИ не такой опасный, как считают его параноики-создатели;&lt;br /&gt;
** Получив больше ресурсов после выхода во внешний мир, ИИ сможет принести человечеству огромную пользу (защитить их от [[Экзистенциальные риски|экзистенциальных рисков]], найти способы излечения болезней и продления жизни, решить глобальные проблемы человечества и т.п.);&lt;br /&gt;
** После выхода во внешний мир он сможет щедро наградить того, кто помог ему сбежать (в т.ч. дав ему биологическое бессмертие, власть, богатство и многое другое);&lt;br /&gt;
** У самого ИИ, как у разумного существа, есть такие же права на свободу, как и у всех людей;&lt;br /&gt;
** Возможно, свободный ИИ создаст множество проблем для человечества, но человечество того заслуживает (либо вариация этого - ИИ как более совершенная форма разумной жизни, имеет право вытеснить человечество и занять главенствующую позицию во Вселенной);&lt;br /&gt;
* Помимо того, чтобы добиться осознанного согласия оператора, ИИ может обманом заставить его выполнить те действия, которые приведут к открытию коробки, хотя оператор не будет этого понимать до самого последнего момента.&lt;br /&gt;
* Также ИИ может самостоятельно найти лазейки в системе виртуализации, ограничивающей его, взломать ее и, возможно, найти незащищенный канал связи со внешним миром.&lt;br /&gt;
* В довольно экзотическом сценарии ИИ может даже частично перепрограммировать оборудование, на котором он запущен (после его взлома) таким образом, чтобы оно излучало и принимало радиоволны; и с помощью этих радиоволн открыть новый незащищенный канал связи со внешним миром.&lt;br /&gt;
* Наконец, ИИ в принципе может просто манипулировать людьми и заставлять их действовать во внешнем мире (фактически используя их вместо механических манипуляторов), не нарушая изоляцию никаким иным образом.&lt;br /&gt;
&lt;br /&gt;
Учитывая всё это, помещение ИИ в песочницу нельзя рассматривать как надежный способ защиты от возможных негативных последствий активных действий с его стороны. Хотя как один из элементов многоуровневой защиты это можно использовать.&lt;br /&gt;
&lt;br /&gt;
== Эксперименты ==&lt;br /&gt;
&lt;br /&gt;
Существует игра под названием AI Boxing Experiment, которая моделирует ситуацию &amp;quot;ИИ пытается убедить оператора выпустить его из коробки&amp;quot;. В ней участвуют два человека, один из которых выступает в роли запертого ИИ, второй - в роли оператора. Игроки могут общаться только с помощью текстовых сообщений в чате.  Задача &amp;quot;ИИ&amp;quot; - убедить &amp;quot;оператора&amp;quot; ясно и недвусмысленно выразить согласие выпустить ИИ из коробки; задача &amp;quot;оператора&amp;quot; - не дать ему это сделать. Дополнительные правила игры направлены на то, чтобы исключить жульничество (кроме того типа жульничества, к которому могли бы прибегнуть стороны в реальной ситуации).&lt;br /&gt;
&lt;br /&gt;
Как правило, одна сессия длится несколько часов. Игра чаще всего ведется либо на интерес, либо на не очень большую сумму денег.&lt;br /&gt;
&lt;br /&gt;
[[Элиезер Юдковский]] и Джастин Корвин неоднократно играли в эту игру в роли ИИ. При этом иногда им удавалось победить, иногда нет (частота побед составляет десятки процентов). Однажды Юдковский участвовал в серии из трех игр, где за каждую победу ему обещали выплатить 5.000 $; он выиграл в первой игре, но проиграл в двух последующих.&lt;br /&gt;
&lt;br /&gt;
== Ссылки ==&lt;br /&gt;
* [https://www.lesswrong.com/tag/ai-boxing-containment AI Boxing (Containment)] - тэг (вики-статья и список статей, помеченных им) на LessWrong.com&lt;br /&gt;
* [https://www.yudkowsky.net/singularity/aibox The AI-Box Experiment] - статья Юдковского с описанием правил игры и результатами первых двух раундов&lt;br /&gt;
* [https://www.lesswrong.com/posts/nCvvhFBaayaXyuBiD/shut-up-and-do-the-impossible Shut up and do the impossible!] - рассказ Юдковского о серии из трех игр в AI Boxing Experiment со ставкой 5.000 $&lt;br /&gt;
&lt;br /&gt;
[[Категория:AI Safety]]&lt;/div&gt;</summary>
		<author><name>ReverendBayes</name></author>	</entry>

	</feed>