Вы здесь

Фальшивые функции полезности

Элиезер Юдковский

Время от времени встречаются люди, которые открыли «Самый главный моральный принцип». Все остальные ценности для них оказываются лишь следствиями этого принципа.

Я сталкиваюсь с такими людьми чаще других. В моём случае это люди, которые знают об удивительно простой функции полезности, и нужно всего лишь запрограммировать на неё искусственный интеллект. После этого всё сразу станет хорошо.

Некоторые люди, сталкиваясь с задачей программирования сверхинтеллекта, пытаются сразу же её решить. Норман Р. Ф. Майер писал: «Не предлагайте решений до тех пор, пока задачу не обсудили настолько подробно, насколько это возможно». А Робин Доуз заметил: «Я часто вводил это правило в группах, которые я вёл, особенно в ситуациях, когда группа сталкивалась с очень сложной задачей. Ведь именно в таких случаях участники наиболее склонны предлагать решения мгновенно». Дружественный ИИ — это чрезвычайно сложная задача, поэтому люди решают её удивительно быстро.

Я заметил несколько больших классов быстрых неправильных решений. Один из таких классов я называю «Удивительно простая функция полезности, которую нужно дать сверхинтеллекту и всё будет хорошо».

Возможно, я и сам подлил масла в огонь, когда много лет назад, впервые начав высказываться о «дружественном ИИ» неверно выбрал слова. Я обозначил оптимизационный критерий оптимизационного процесса — ту область, в которую агент пытается направить будущее — как «суперцель». Я использовал приставку «супер» в смысле «родительский», как указание на отправную точку в ребре в ациклическом графе. Однако, кажется, моя формулировка направила некоторых людей в счастливую смертельную спираль, где они пытаются представить «Самую суперскую СуперЦель, Цель, которая превосходит все другие: одно Главное правило из которого можно вывести всю этику».

Однако функция полезности не обязана быть простой. Она может содержать произвольное число слагаемых. Если мы вообще можем говорить, что у людей есть ценности, то у нас есть все причины считать, что таких ценностей очень много, то есть у функции полезности большая колмогоровская сложность. Мозг человека реализует тысячи мельчайших желаний и стремлений, хотя люди, не изучавшие эволюционную психологию, часто недооценивают этот факт. (Если пытаться это объяснить без длинного вступления, то слушатель уловит «люди пытаются максимизировать приспособленность», а эволюционная психология учит совершенно противоположному.)

Сложность человеческой морали — это известный факт, во всяком случае пока мы говорим о дескриптивных теориях. Мы наблюдаем как факт, что любовь родителя к ребёнку, любовь ребёнка к родителю, любовь мужчины к женщине и любовь женщины к мужчине не выводятся когнитивно друг из друга или из какой-либо другой ценности. Матери не нужно осваивать сложную моральную философию, чтобы любить свою дочь, и эта любовь не приводит к каким-то последствиям в отношении других ценностей. У нас много желаний и стремлений, и все они ценятся по-разному.

Если, программируя сверхинтеллект, вы забудете хотя бы одну из ценностей, то, даже если вы с успехом реализуете все остальные, вы можете столкнуться с гиперэкзистенциальной катастрофой, судьбой хуже смерти. Если появится сверхинтеллект, который будет желать для нас всего, что мы бы захотели сами, но не учитывающий человеческих ценностей «контролировать свою жизнь» и «достигать своих целей», то мы получим сценарий, давно описанный в антиутопиях (для примера смотрите Джек Уильямсон, «Со сложенными руками»).

Как же люди составляют свою «Удивительно простую функцию полезности» с учётом этого возражения?

Возражения? Какие ещё возражения? Зачем кто-то вообще будет искать возможные возражения против своей любимой теории? (Обратите внимание, что процесс поиска настоящих убийственных возражений совсем не похож на тот скрупулёзный вид поиска, когда находятся исключительно такие вопросы, на которые есть мгновенный ответ.) Люди ничего об этом не знают. Люди не думают о бремени доказательств. Люди не знают, что задача сложная. Они услышали слово «суперцель» и пустились по счастливой смертельной спирали вокруг слова «сложность» или чего-нибудь ещё в этом духе.

Начните уточнять конкретные детали, например, что будет с любовью матери к своим детям и вам ответят: «Но если сверхинтеллект захочет „сложности“, он заметит, насколько сложны взаимоотношения родителей и детей, и, следовательно, будет способствовать, чтобы матери любили своих детей». Да я даже не знаю, с чего тут начать!

Во-первых, здесь присутствует мотивированная остановка. Если сверхинтеллект и впрямь будет максимизировать сложность, то, заметив, что отношения родитель-ребёнок сложны, он не остановится на этом ради нашего удобства. Он задастся вопросом, есть ли что-нибудь ещё более сложное. Здесь присутствует фальшивое оправдание: человек, пытающийся обосновать предполагаемый выбор воображаемого сверхинтеллекта пришёл к этому выбору не через честный поиск способов достичь максимальной сложности.

Весь довод — это фальшивая мораль. Тот, кто на самом деле ценит сложность, оправдывал бы родительскую любовь тем, что она увеличивает сложность. Тот, кто оправдывает стремление к сложности тем, что оно увеличивает родительскую любовь, на самом деле ценит родительскую любовь. Это всё равно, что защищать эгоизм, потому что он полезен для общества.

Вспомните про аффективные смертельные спирали. «Сложность» не станет привлекательней, если говорить: «Отношение матери к её дочери важно только потому, что оно увеличивает сложность. Представьте, что эти отношения стали бы проще. Мы бы не ценили их». «Сложность» становится привлекательной от слов: «Если увеличивать сложность, матери будут любить своих дочерей. Смотрите, польза!»

Этот довод применим всегда, когда вы сталкиваетесь с моралистом, который пытается убедить вас, что для морального суждения нужна лишь его Единственная Великая Идея и доказывает это словами: «Смотри, какая польза от этой Великой Штуковины», а не словами: «Смотри, всё, что мы считаем „полезным“, оказывается полезным, если его последствия увеличивают Великую Штуковину». Настоящим аргументом в пользу точки зрения моралиста будет именно последнее.

Однако, если вы стараетесь убедить других (или себя), что Самое Главное в Жизни — это бананы, то вы продадите гораздо больше бананов в том случае, если убедите, что бананы приводят к большему количеству секса, а не в том случае, если убедите, что хотеть секса стоит только в том случае, когда он приводит к большему количеству бананов.

Конечно, вы можете зайти по смертельной счастливой спирали настолько далеко, что и впрямь начнёте говорить: «Секс хорош только тогда, когда он ведёт к бананам». Тогда у вас проблемы. Однако, по крайней мере, больше вы никого не убедите.

В конце концов, единственный процесс, который надёжно воспроизводит все конкретные решения, которые вы бы приняли, руководствуясь своей моралью — это ваша мораль. Всё остальное — любая попытка заменить терминальные цели инструментальными средствами — приводит к потерянным целям и требует бесконечного количества «костылей», потому что в результирующей системе нет источника инструкций, которые вы в неё вносите. Ожидать, что человеческую мораль можно сжать в простую функцию полезности, всё равно что ожидать, что огромный файл после архивации будет занимать 10 бит.


Перевод: 
sepremento, Alaric, ildaar
Номер в книге "Рациональность: от ИИ до зомби": 
260
Оцените качество перевода: 
Средняя оценка: 5 (4 votes)
  • Короткая ссылка сюда: lesswrong.ru/641