Нет универсально убедительных аргументов

Элиезер Юдковский

Что такого пугающего в идее, что не все возможные умы могут согласиться с нами, даже в принципе?

Для некоторых — ничего, их это нисколько не беспокоит. И некоторых из этих людей это не беспокоит по той причине, что у них нет четкого представления о стандартах и истинах, выходящих за рамки личных прихотей. Если они говорят, что небо голубое или что убийство неправильно, это просто их личное мнение; и то, что у кого-то другого может быть другое мнение, их не удивляет.

Другие люди не могут принять существования разногласий, которые сохраняются даже в принципе. И некоторых из этих людей это беспокоит по той причине, что им кажется, что если вы допускаете, что некоторых людей невозможно даже в принципе убедить в том, что небо голубое, то вы признаете, что «небо голубое» — это просто произвольное личное мнение.

Я предложил вам не поддаваться искушению обобщать что-либо на все пространство возможных устройств разума. Если мы ограничимся разумами, которые можно определить в рамках триллиона бит или меньше, то каждое универсальное обобщение «Для всех разумов m: X (m)» имеет два в триллионной степени шансов быть ложным, в то время как каждое экзистенциальное обобщение «Существует разум m: X (m)» имеет два в триллионной степени шансов оказаться правдой.

Казалось бы, это доказывает, что для каждого аргумента А, каким бы убедительным он нам ни казался, существует по крайней мере один возможный ум, на который этот аргумент не подействует.

И неожиданность и/или кошмарность этой перспективы (для некоторых), думаю, во многом связана с интуицией о духе-в-машине 1 — духе с неким нередуцируемым ядром, которое можно убедить любым действительно веским аргументом.

Ранее я говорил об интуиции, следуя которой люди ассоциируют программирование компьютера с инструктированием человека-прислуги, как будто компьютер может восстать против своего кода — или, возможно, просмотреть код, решить, что он неразумен, и вернуть его обратно.

Если бы в машине был дух, и этот дух содержал бы в себе нередуцируемое ядро разумности, за пределами которого любой простой код был бы лишь предложением, тогда могли бы существовать универсальные аргументы. Даже если бы духу изначально были переданы коды-предложения, противоречащие Универсальному Аргументу, то когда мы, наконец, подвергли бы духа воздействию Универсального Аргумента (или дух мог бы обнаружить Универсальный Аргумент самостоятельно — это тоже популярная идея), дух просто отменил бы собственный ошибочный исходный код.

Но как однажды сказал некий студент-программист: «У меня такое ощущение, что компьютер просто игнорирует все мои комментарии». Код не передан ИИ; код — это и есть ИИ.

Если переключиться на взгляд с точки зрения физики, то идея Универсального Аргумента покажется заметно нефизической. Если есть физическая система, которая в момент T после воздействия аргумента E выполняет X, то должна быть и другая физическая система, которая в момент T после воздействия среды E выполняет Y. Любая мысль должна быть где-то реализована, в физической системе; любое убеждение, любой вывод, любое решение, любая двигательная активность. Для каждой следующей законам каузальной системы, которая совершает какие-то движения во множестве точек, вы должны быть в состоянии описать другую каузальную систему, которая следуя законам совершала бы обратные движения в тех же точках.

Допустим, есть разум с транзистором, который выдает +3 вольта в момент времени T, что означает, что он только что согласился с каким-то убедительным аргументом. Тогда мы можем построить очень похожую физическую когнитивную систему с крошечным люком под транзистором, в котором сидит маленький серый человечек, который вылезает из него в момент T и устанавливает выходной сигнал этого транзистора на -3 вольта, что означает несогласие. В этом нет ничего акаузального; маленький серый человечек находится здесь, потому что мы его сюда встроили. Идея аргумента, который убеждает любой разум, похоже, подразумевает наличие маленькой синей женщины, которая никогда не была встроена в систему, но вылезает буквально из ниоткуда и душит маленького серого человечка, потому что этот транзистор только что должен был выдать +3 вольта. Понимаете, это вот настолько убедительный аргумент.

Но принуждение — это не свойство аргументов; это свойство умов, обрабатывающих аргументы.

Так что причина, по которой я выступаю против идеи духа, заключается не просто в том, чтобы подчеркнуть, что (1) Дружественный ИИ должен быть явным образом запрограммирован и (2) законы физики не запрещают возможность создания Дружественного ИИ. (Хотя, конечно, у меня есть определенный интерес в установлении этих фактов.)

Я также хочу установить понятие разума как каузальной, подчиняющейся законам, физической системы, в центре которой нет нередуцируемого духа, который просматривает ее нейроны/код и решает, хороши ли они.

(Есть такая идея как намеренное программирование Дружественного ИИ так, чтобы он проверял собственный исходный код и, возможно, возвращал бы его программистам. Но проверяющий себя разум не является нередуцируемым, — это всего лишь разум, который вы создали. ДИИ перенормирует себя, но он и был таким разработан сам по себе; нет ничего акаузального, проникающего в него извне. Бутстрэп, а не скайхук2.)

Все это возвращает к беспокойству о «произвольности» априорных убеждений в байесовском подходе. Если вы покажете мне одного байесианца, который вытягивает из бочки 4 красных шара и 1 белый шар и приписывает получению красного шара в следующий раз вероятность 5/7 (следуя правилу последовательности Лапласа), то я могу показать вам другой разум, который тоже подчиняется правилу Байеса, но делает вывод о том, что вероятность вытянуть красный в следующий раз равна 2/7, — следуя другому априорному убеждению о бочке, хоть, возможно, и менее «обоснованному».

Многие философы убеждены, что, раз в принципе можно построить априорное убеждение, которое будет обновляться до любого наперед заданного вывода после обработки потока свидетельств, то байесианские рассуждения «произвольны» и весь план байесианства ошибочен, поскольку опирается на «необоснованные» предположения, и что в действительности это «ненаучно», — потому что вы не можете заставить любого возможного редактора журнала из пространства возможных разумов согласиться с вами.

И это убеждение, как я уже отвечал, основано на идее, что, раскрыв все аргументы и их обоснования, вы можете получить идеального студента-философа совершенной пустоты, которого убедит линия рассуждений, которая начинается с абсолютного отсутствия каких-либо предположений.

Но кто этот идеальный философ совершенной пустоты? Да ведь это просто нередуцируемое ядро духа!

И именно поэтому, продолжал я, результатом попытки удалить из разума все предпосылки и раскрыться до полного отсутствия каких-либо априорных убеждений будет не идеальный философ совершенной пустоты, а камень. Что останется в сознании после удаления исходного кода? Не дух, просматривающий исходный код, а просто … никакого духа.

Итак — и я еще подниму эту тему позднее — где бы у вас ни располагались ваши представления о валидности, или ценности, или рациональности, или обоснованности, или даже объективности, они не могут опираться на аргумент, который универсально убедителен для всех физически возможных разумов.

Также вы не способны определить валидность последовательностью обоснований, которая убеждает совершенную пустоту, начиная с ничего.

О, ну могут быть последовательности аргументов, которые убедили бы любого человека без неврологических повреждений — например, аргумент, который я использую, чтобы убедить людей выпустить ИИ из коробки 3 — но это вряд ли тоже самое с философской точки зрения.

Первая крупная неудача тех, кто пытается рассматривать идею Дружественного ИИ, — это «Один Великий Моральный Принцип, Который Нам Достаточно Запрограммировать», т.е. ложная функция полезности — и об этом я уже говорил.

Но провал еще хуже — это «Один Великий Моральный Принцип, Который Нам Даже Не Нужно Программировать, Потому Что Любой ИИ Неизбежно Должен Вывести Его». Эта идея вызывает пугающе нездоровое очарование у тех, кто спонтанно переизобретает ее; они мечтают о приказах, которым не может не подчиниться ни один достаточно развитый разум. Сами боги провозгласят правоту их философии! (Например, Джон К. Райт, Марк Геддес.)

Есть также менее тяжелая версия провала, при которой человек не провозглашает Единой Истинной Морали. Вместо этого он надеется на то, что ИИ будет создан совершенно свободным, не ограниченным несовершенными, желающими создать себе рабов людьми, — чтобы ИИ мог достичь добродетели по собственному желанию — добродетели, о которой, возможно, и не мечтал говорящий, который признает себя слишком несовершенным, чтобы обучать ИИ. (Например, Джон К. Кларк, Ричард Холлерит?, Элиезер₁₉₉₆.) Это менее испорченный мотив, чем мечта об абсолютном командовании. Но хотя эта мечта порождена добродетелью, а не пороком, она все же основана на ошибочном понимании свободы, и на самом деле не сработает в реальной жизни. К этому, конечно, еще вернемся.

Джон К. Райт, который ранее писал очень хорошую трансгуманистическую трилогию (первая книга: «Золотой век»), вставил огромного «Автора-филибастера»4 в середину своей решающей третьей книги, описывая на десятках страниц свою «Универсальную Мораль, Которая Должна Убедить Любой ИИ». Не знаю, произошло ли что-нибудь после этого, потому что я перестал читать. А потом Райт обратился в христианство — да, серьезно. Так что вы действительно не хотели бы попасть в эту ловушку!

1. «Дух в машине» (или «призрак в машине») — это введенный философом Гилбертом Райлом («Понятие сознания», 1949) термин, который указывает на представление о разуме как о независимой от тела сущности, управляющей им. — Прим.перев.
2. Под «бутстрэпом» (англ. bootstrap) автор скорее всего имеет в виду самоулучшение без посторонней помощи (см. в Cambridge Dictionary), а под «скайхуком» (англ. skyhook) метафорический крюк, используемый для подъема чего-либо на тросе, свисающем с неба без какой-либо поддержки (см. Skyhook (cable) — такой воображаемый крюк используется в шутках). — Прим.перев.
3. Просто шутка.
4. «Автор-филибастер» (или авторский «флибустьер») — это, как объясняют разные энциклопедии тропов (напр. TVTropes), прием, при котором ход сюжета останавливается автором ради проповеди личного послания читателям, зачастую носящего весьма политический или этический характер. — Прим.перев.

Перевод:

К. Кирдан

Ссылка на оригинал:

No Universally Compelling Arguments

Ссылка на оригинал на readthesequences.com:

No Universally Compelling Arguments

Номер в книге "Рациональность: от ИИ до зомби":

266

Оцените качество перевода: