Альтернативная формулировка: Оптимальность – тигр, и агенты – клыки его.
Схожий тон: Стратегии Годзиллы.
Есть проблема, когда люди думают, что суперинтеллектуальный ИИ будет просто безвольным инструментом, который будет делать то, что ему скажут. Но есть и проблема, когда люди слишком сосредотачиваются на «агентности». Когда они представляют, будто все проблемы исходят от того, что ИИ чего-то «хочет», «думает» и проявляет по этому поводу консеквенциализм. Ах если бы мы только могли сделать его в большей степени безвольным инструментом! Тогда все наши проблемы были бы решены. Потому что проблема в том, что ИИ будет умными способами использовать свои силы, чтобы намеренно нам навредить, верно?
Я думаю, такой взгляд не учитывает всей силы оптимизации, того, как даже малейшая неудача в её точном нацеливании, мельчайшая утечка её энергии в неправильном направлении, хоть на секундочку, будет достаточной, чтобы всех нас смыло.
Проблема не в создании суперинтеллекта без позитивного желания нас убить. Случайное убийство всех нас – естественное свойство суперинтеллекта. Проблема в создании ИИ, который намеренно тратит много усилий, чтобы удостовериться, что он нас не убьёт.
Мне хорошей аналогией кажутся уничтожающие планеты Лучи Смерти. Подумайте о Звезде Смерти. Представьте…
Представьте, что вы – инженер, нанятый… эксцентричным парнем. У него есть логово в вулкане, странные эстетические вкусы, и тенденция ставить рядом слова «мир» и «захватить». Ну, знаете таких.
Одна из его новых схем – взорвать Юпитер. Для этого он раскопал огромную пещеру под своим логовом в вулкане, прорыл длинный цилиндрический туннель из этой пещеры на поверхность, и приказал вашей команде создать в этой пещере лучевое оружие, и выстрелить им через туннель на Юпитер.
Вам платят буквальные тонны денег, так что вы не жалуетесь (кроме как о логистике платежей). У вас к тому же есть весьма хорошая идея того, как это сделать. Ваша команда нашла эти странные кристаллические штуки. Если определённым способом такую тыкнуть, она выпускает узкий энергетический луч, взрывающий всё, чего касается. Сила луча растёт суперэкспоненциально с силой тычка; вы довольно таки уверены, что если выстрелить в такую штуку из винтовки, на Юпитер хватит.
Есть только одна проблема: нацеливание. У вас никогда не получается точно предсказать, какая часть кристалла испустит луч. Это зависит от того, куда его ткнуть, но ещё и от того, насколько сильно, с результатами, кажущимися случайными. И ваш работодатель настаивает, что Луч Смерти надо запустить из пещеры через туннель, а не из космоса, где он менее вероятно попадёт во что-то важное, или ещё каким-нибудь практичным способом.
Если вы скажете, что этого сделать нельзя, ваш работодатель просто заменит вас кем-то менее… пессимистичным.
Итак, вот ваша задача. Как вам создать машину, использующую один или несколько таких кристаллов для запуска Луча Смерти через туннель в Юпитер, чтобы он не попал в Землю, убив всех?1
Вы экспериментируете с кристаллами в не-уничтожающих-Землю режимах, пытаясь понять, как направляется луч. Вы добились неслабого прогресса! Вы способны предсказать направление луча на следующем режиме мощности с уверенностью в 97%!
Вы пускаете Луч Смерти на более низких не-уничтожающих-Землю режимах мощности, которые вы умеете нацеливать.
Вы покрываете стены пещеры и туннеля действительно хорошим защитным покрытием.
Вы создаёте механизм для быстрого выключения Луча Смерти. Если вы увидите, что он направлен не в том направлении, вы его отключите.
Вы создаёте действительно быструю систему нацеливания, которая быстро повернёт кристалл, как только детектирует, что Луч Смерти направлен не туда.
Вы делаете луч очень узким, чтобы он с меньшей вероятностью попал в стенку туннеля.
Вы создаёте хитрую систему, стреляющую несколькими Лучами Смерти в приблизительном направлении туннеля, нацеленные так, чтобы пересечься под входом в него. Идея в том, что их ошибки скомпенсируют друг друга, и составной луч полетит куда надо!
Вы проводите над кристаллом экзорцизм, изгоняя вселившихся в него демонов.
Вы модифицируете кристалл так, чтобы луч безвредно рассеивался вскоре после выстрела.
Пришедший к вам на замену решает, что покрытие стен ещё лучшим защитным слоем должно решить проблему, запускает луч, уничтожает Землю и убивает всех.
Конечно, эту аналогию можно критиковать бесконечно. Она ни в коем случае ничего не доказывает. Вы можете говорить, что лишь чуть-чуть несогласованности не уничтожит мир, или что ИИ не обязательно быть опасным, чтобы мы могли делать с ним интересные штуки, или что интеллект на самом деле не настолько могущественен, и так далее.
Этот пост не направлен на том, чтобы кого-то убедить; для этого написано уже много чего. Но если вы в общих чертах принимаете предпосылки, но вам сложно точно указать конкретные проблемы с любым данным сценарием сдерживания, эта аналогия может помочь.
У любой достаточно мощной ИИ-системы есть ужасающее ядро оптимизации – способность переделывать некоторую часть мира согласно какой-нибудь спецификации. Неважно, как именно эта мощь выражена, в какие обёртки завёрнута, куда конкретно направлена, контролируется ли чуждой разумной сущностью. Пока она не направлена в точности туда, куда мы хотим, без утечек, с самого начала, она убьёт нас всех.
Это её неотъемлемое свойство.