Вы здесь

Плохо нацеленные Лучи Смерти

Thane Ruthenis

Альтернативная формулировка: Оптимальность – тигр, и агенты – клыки его.
Схожий тон: Стратегии Годзиллы.

Есть проблема, когда люди думают, что суперинтеллектуальный ИИ будет просто безвольным инструментом, который будет делать то, что ему скажут. Но есть и проблема, когда люди слишком сосредотачиваются на «агентности». Когда они представляют, будто все проблемы исходят от того, что ИИ чего-то «хочет», «думает» и проявляет по этому поводу консеквенциализм. Ах если бы мы только могли сделать его в большей степени безвольным инструментом! Тогда все наши проблемы были бы решены. Потому что проблема в том, что ИИ будет умными способами использовать свои силы, чтобы намеренно нам навредить, верно?

Я думаю, такой взгляд не учитывает всей силы оптимизации, того, как даже малейшая неудача в её точном нацеливании, мельчайшая утечка её энергии в неправильном направлении, хоть на секундочку, будет достаточной, чтобы всех нас смыло.

Проблема не в создании суперинтеллекта без позитивного желания нас убить. Случайное убийство всех нас – естественное свойство суперинтеллекта. Проблема в создании ИИ, который намеренно тратит много усилий, чтобы удостовериться, что он нас не убьёт.

Мне хорошей аналогией кажутся уничтожающие планеты Лучи Смерти. Подумайте о Звезде Смерти. Представьте…

Представьте, что вы – инженер, нанятый… эксцентричным парнем. У него есть логово в вулкане, странные эстетические вкусы, и тенденция ставить рядом слова «мир» и «захватить». Ну, знаете таких.

Одна из его новых схем – взорвать Юпитер. Для этого он раскопал огромную пещеру под своим логовом в вулкане, прорыл длинный цилиндрический туннель из этой пещеры на поверхность, и приказал вашей команде создать в этой пещере лучевое оружие, и выстрелить им через туннель на Юпитер.

Вам платят буквальные тонны денег, так что вы не жалуетесь (кроме как о логистике платежей). У вас к тому же есть весьма хорошая идея того, как это сделать. Ваша команда нашла эти странные кристаллические штуки. Если определённым способом такую тыкнуть, она выпускает узкий энергетический луч, взрывающий всё, чего касается. Сила луча растёт суперэкспоненциально с силой тычка; вы довольно таки уверены, что если выстрелить в такую штуку из винтовки, на Юпитер хватит.

Есть только одна проблема: нацеливание. У вас никогда не получается точно предсказать, какая часть кристалла испустит луч. Это зависит от того, куда его ткнуть, но ещё и от того, насколько сильно, с результатами, кажущимися случайными. И ваш работодатель настаивает, что Луч Смерти надо запустить из пещеры через туннель, а не из космоса, где он менее вероятно попадёт во что-то важное, или ещё каким-нибудь практичным способом.

Если вы скажете, что этого сделать нельзя, ваш работодатель просто заменит вас кем-то менее… пессимистичным.

Итак, вот ваша задача. Как вам создать машину, использующую один или несколько таких кристаллов для запуска Луча Смерти через туннель в Юпитер, чтобы он не попал в Землю, убив всех?1

Вы экспериментируете с кристаллами в не-уничтожающих-Землю режимах, пытаясь понять, как направляется луч. Вы добились неслабого прогресса! Вы способны предсказать направление луча на следующем режиме мощности с уверенностью в 97%!

  • Когда вы запускаете установку на уничтожающей-Юпитер-мощности, это приводит к небольшой неточности нацеливания луча. Он задевает стенку туннеля, взрывает Землю и всех убивает.

Вы пускаете Луч Смерти на более низких не-уничтожающих-Землю режимах мощности, которые вы умеете нацеливать.

  • Он попадает в Юпитер, но не уничтожает его. Ваш работодатель разочарован и говорит вам попробовать ещё раз.

Вы покрываете стены пещеры и туннеля действительно хорошим защитным покрытием.

  • Луч Смерти задевает стенку туннеля, пробивает броню и убивает всех.

Вы создаёте механизм для быстрого выключения Луча Смерти. Если вы увидите, что он направлен не в том направлении, вы его отключите.

  • Луч Смерти убивает вас до того, как информация о неправильном нацеливании достигает вашего мозга.

Вы создаёте действительно быструю систему нацеливания, которая быстро повернёт кристалл, как только детектирует, что Луч Смерти направлен не туда.

  • За долю секунды, которую он направлен не в том направлении, он передаёт достаточно энергии, чтобы взорвать Землю и всех убить.

Вы делаете луч очень узким, чтобы он с меньшей вероятностью попал в стенку туннеля.

  • Он всё равно её задевает и убивает всех.

Вы создаёте хитрую систему, стреляющую несколькими Лучами Смерти в приблизительном направлении туннеля, нацеленные так, чтобы пересечься под входом в него. Идея в том, что их ошибки скомпенсируют друг друга, и составной луч полетит куда надо!

  • Ошибки не скомпенсировались идеально, луч задевает стенку туннеля и опять всех убивает.
  • К тому же, один из Лучей Смерти оказался направленным в пол, так что это в любом случае бы не сработало.

Вы проводите над кристаллом экзорцизм, изгоняя вселившихся в него демонов.

Вы модифицируете кристалл так, чтобы луч безвредно рассеивался вскоре после выстрела.

  • Он не может достичь Юпитера. Вы разочаровали своего работодателя в последний раз. Он вас ~запускает на Солнце~ увольняет.

Пришедший к вам на замену решает, что покрытие стен ещё лучшим защитным слоем должно решить проблему, запускает луч, уничтожает Землю и убивает всех.

Конечно, эту аналогию можно критиковать бесконечно. Она ни в коем случае ничего не доказывает. Вы можете говорить, что лишь чуть-чуть несогласованности не уничтожит мир, или что ИИ не обязательно быть опасным, чтобы мы могли делать с ним интересные штуки, или что интеллект на самом деле не настолько могущественен, и так далее.

Этот пост не направлен на том, чтобы кого-то убедить; для этого написано уже много чего. Но если вы в общих чертах принимаете предпосылки, но вам сложно точно указать конкретные проблемы с любым данным сценарием сдерживания, эта аналогия может помочь.

У любой достаточно мощной ИИ-системы есть ужасающее ядро оптимизации – способность переделывать некоторую часть мира согласно какой-нибудь спецификации. Неважно, как именно эта мощь выражена, в какие обёртки завёрнута, куда конкретно направлена, контролируется ли чуждой разумной сущностью. Пока она не направлена в точности туда, куда мы хотим, без утечек, с самого начала, она убьёт нас всех.

Это её неотъемлемое свойство.

  • 1. Ещё, в этом сценарии у Земли нет атмосферы. Наверное, тоже вина вашего работодателя. Но по крайней мере, это означает, что хорошо нацеленный луч не попадёт по воздуху и не взорвёт всё в любом случае.

Перевод: 
Выменец Максим
Оцените качество перевода: 
Средняя оценка: 3.6 (5 votes)
  • Короткая ссылка сюда: lesswrong.ru/3058