Вы здесь

Главные вкладки

Ценности терминальные и инструментальные

Элиезер Юдковский

Интуитивно кажется, что любой человек при планировании ведёт себя так, будто умеет различать цели и средства. Хочется шоколада? Шоколад продаётся в супермаркете «Пабликс». Чтобы попасть в супермаркет, нужно проехать одну милю на юг по проспекту Вашингтона. Чтобы проехать эту милю, нужно сесть в машину. Чтобы открыть дверь, нужны ключи от машины. И вы кладёте ключи от машины в карман, собираетесь выйти из дома…

… и тут внезапно по радио сообщают, что землетрясение уничтожило весь шоколад в местном «Пабликсе». И нет смысла ехать в «Пабликс», если там нет шоколада, и нет смысла садиться в машину, если вы никуда не едете, и нет смысла в ключах от машины в кармане. Поэтому вы вытаскиваете ключи из кармана, звоните в местную службу доставки пиццы и заказываете там шоколадную пиццу. М-м-м, вкусно.

Я редко сталкиваюсь с тем, что люди теряют нить плана, который они сами же и разработали. Обычно люди не едут в супермаркет, если знают, что шоколада там нет. Но при этом я часто замечаю, что когда люди не просто хотят чего-то, а явно описывают свою систему целей — говорят о целях, а не пытаются их достичь, — они часто путаются. Люди хорошо планируют, но они не специалисты по планированию1. Если бы это было не так, в мире было бы гораздо больше разработчиков ИИ.

В частности, я замечаю, что люди путаются — в абстрактных философских дискуссиях, а не в обычной жизни, — когда обсуждают разницу между целями и средствами. Более формально: разницу между «инструментальными ценностями» и «терминальными ценностями».

Насколько я понимаю, часть проблемы заключается в том, что человеческий мозг использует для отслеживания своих целей отдельную систему, которая работает, но не идеально. В нашем языке нет чёткого разделения между целями и средствами: предложения «Я хочу спасти жизнь моей сестры» и «Я хочу сделать моей сестре укол пенициллина» содержат одно и то же слово «хочу».

Можем ли мы описать утерянную разницу на обычном человеческом языке?

Давайте попробуем:

«Инструментальные ценности» нужны нам исключительно потому, что мы ожидаем, что они повлекут ожидаемые нами последствия. «Я хочу сделать моей сестре укол пенициллина» не потому, что сестра с пенициллином внутри это нечто хорошее само по себе, а потому что ожидаю, что пенициллин вылечит её от пожирающей плоть пневмонии. Если бы вы ожидали, что укол пенициллина приведёт к тому, что ваша сестра растает как Злая Ведьма Запада, вы бы дрались изо всех сил, чтобы спасти её от пенициллина.

«Терминальные ценности» нужны нам без какой-либо связи с другими последствиями. «Я хочу спасти жизнь моей сестре» никак не связано с тем, будет ей сделан после этого укол пенициллина или нет.

У этой первой попытки есть очевидные проблемы. Если спасение жизни моей сестры приведёт к тому, что Землю поглотит чёрная дыра, я порыдаю некоторое время, но не буду делать ей укол пенициллина. Означает ли это, что спасение жизни моей сестры не является «терминальной ценностью» (не имеет ценность само по себе), ведь теоретически оно может повлечь какие-то последствия? Возможно, я пытаюсь спасти ей жизнь лишь из убеждения, что впоследствии Землю не поглотит чёрная дыра? Интуиция подсказывает, что дело не в этом.

Поэтому оставим в покое обычный язык. Мы можем математически описать теорию принятия решений так, чтобы терминальные и инструментальные ценности оказались независимыми и несовместимыми типами — как целые числа и числа с плавающей запятой в языках программирования, где нет автоматической конвертации между ними.

Идеальную байесианскую систему принятия решений можно построить всего лишь на основе четырёх элементов:

Исходы: тип Исход[]
- перечень возможных исходов
- {сестра живёт, сестра умирает}
Действия: тип Действие[]
- перечень возможных действий
- {сделать укол пенициллина, не делать укол пенициллина}
Функция_полезности: тип Исход -> Полезность
- функция полезности, которая ставит в соответствие каждому исходу его полезность
- (полезность описывается действительным числом между минус- и плюс-бесконечностью)
- {сестра живёт: 1, сестра умирает: 0}
Функция_условной_вероятности: тип Действие -> Исход -> Вероятность
- функция условной вероятности описывает вероятностное распределение по исходам для каждого действия
- (вероятность описывается действительным числом от 0 до 1)
- {сделать укол пенициллина: сестра живёт, 0,9; сестра умирает: 0,1;; не делать укол пенициллина: сестра живёт: 0,3; сестра умирает: 0,7}

А что насчёт самой системы принятия решений?

Ожидаемая_полезность: Действие Д -> (Сумма И из Исходы: Полезность(И) * Вероятность(И|Д))
- «Ожидаемая полезность» действия равна сумме по всем исходам от полезности исхода, помноженной на условную вероятность исхода при выполнении этого действия.
- {ОП(сделать укол пенициллина) = 0,9; ОП(не делать укол пенициллина) = 0,3}
Выбрать: -> (Argmax Д из Действий: Ожидаемая_Полезность(Д))
- Выбрать действие, «ожидаемая полезность» которого максимальна.
- {результат: сделать укол пенициллина}

Для каждого действия вычислите условную вероятность всех возможных последствий, затем сложите полезности, помноженные на условные вероятности. Затем выберите лучшее действие.

Это математически простой набросок системы принятия решений. Вычислять решение в реальном мире таким образом не эффективно.

Например, что будет, если план требует выполнить некую последовательность шагов? Построенный формализм может легко описать такую ситуацию, при этом Действие будет обозначать всю последовательность. Но при этом получится экспоненциально большое пространство вариантов, похожее на пространство всех предложений, состоящих из 100 букв. Если одним из возможных первых шагов будет «Отстрелить себе ногу», человек решит, что это в любом случае плохая идея, и выбросит все последовательности, начинающиеся с этого шага. Но в нашем представлении мы упрощаем эту структуру. У нас нет последовательностей шагов, есть лишь просто «действия».

В общем, да, есть «несколько небольших сложностей». Собственно, если бы их не было, мы бы могли просто создать таким способом настоящий ИИ. В каком-то смысле таковым ИИ и была бы сама байесовская теория вероятностей.

Однако всё равно это пример ситуации, когда гораздо лучше сначала рассмотреть простой до абсурдности вариант, а уж потом добавлять всякие навороченные усложнения.

Рассмотрим философа, который заявляет: «Все мы, в сущности, эгоисты. Мы заботимся лишь о том, что у нас в голове. Мать, которая заявляет, что волнуется о благополучии сына, на самом деле хочет верить, что с её сыном всё в порядке. Её делает счастливой это убеждение. Она помогает сыну ради своего счастья, а не ради его счастья». Вы отвечаете: «Предположим, мать жертвует своей жизнью, чтобы вытолкнуть сына из под колёс едущего грузовика. Этот поступок не делает её счастливой, она просто погибает». Философ запинается на секунду, затем возражает: «Но она всё равно это делает, потому что этот выбор ей нравится больше других, потому что она присвоила этому решению большую важность».

И на это вы говорите:

ОШИБКА ТИПОВ: Конструктор для Ожидаемая_Полезность -> Полезность не найден.

Позвольте мне объяснить этот ответ.

Даже наш простой формализм чётко показывает различие между ожидаемой полезностью, которая является свойством действия, и полезностью, которая является свойством исхода. Да, конечно, вы можете перевести и полезность, и ожидаемую полезность в действительные числа. Но это тоже самое, что перевести в действительные числа скорость ветра и температуру — они не становятся от этого одной и той же сущностью.

Философ начинает спор с утверждения, что полезность является функцией от исходов, составляющих состояние нашего разума. Если это правда, то наш разум будет действовать как машина, которая направляет будущее в те области, где мы счастливы. Будущие состояния при этом различаются только по состоянию разума. Если в каких-то двух разных будущих у вас одинаковое состояние ума, вам всё равно, какое из них предпочесть.

И в этом случае вы действительно вряд ли станете жертвовать своей жизнью, чтобы спасти чужую.

Когда мы возражаем, что люди иногда всё-таки жертвуют своими жизнями, философ переключается на обсуждение ожидаемой полезности от действий: «Она присвоила этому решению большую важность». Именно из-за этого неожиданного переключения мы должны подпрыгнуть от возмущения. В нашем языке программирования попытка преобразовать Ожидаемая_полезность в Полезность сразу же вызовет ошибку. Но в обычном человеческом языке и то, и другое кажется одним понятием.

В нашей простой системе принятия решений мы выбираем те действия, которым соответствует наивысшая Ожидаемая_полезность. Но это ничего не говорит о том, в какое именно будущее мы хотим попасть. Ожидаемая полезность ничего не говорит о полезностях, которые назначает принимающий решение, или об исходах, которые скорее всего произойдут в реальном мире. Она ничего не говорит о разуме как о машине, направляющей куда-то будущее.

Физической причиной физического действия является состояние разума. Для нашего идеального принимателя решений таким состоянием является Ожидаемая_полезность, которая вычисляется через функцию полезности от воображаемых последствий. Чтобы спасти жизнь сына, вы должны представить событие, при котором жизнь сына спасена. Воображаемое событие само по себе не является событием. Оно оказывается в кавычках, тут такая же разница, как между «снегом» и снегом. Но это не означает, что то, что находится в кавычках должно само быть состоянием разума. Если вы выбираете действие, которое ведёт к будущему, которое вы представляете как «мой сын по-прежнему жив», то вы работаете машиной, которая направляет будущее в ту область, где ваш сын по-прежнему жив. Не машиной, которая направляет будущее в область, где вы представляете предложение «мой сын по-прежнему жив». Чтобы направлять будущее в эту область, ваша функция полезности должна возвращать высокое значение при входных данных « „мой сын по-прежнему жив“ », когда стоят двойные кавычки, когда речь идёт о том, как вы воображаете себя воображающим такой исход. У вас получится плохой торт, если вы измельчите рецепт и бросите его в тесто.

Именно поэтому полезней сначала рассмотреть простую систему принятия решений. Если в неё внести достаточно усложнений, различия, хорошо заметные ранее, будет увидеть сложнее.

А теперь давайте рассмотрим некоторые усложнения. Очевидно, что функция полезности (отображающая исходы в полезность) нужна, чтобы формализовать то, что раньше я обозначил как «терминальные цели», цели, которые никак не связаны с их последствиями. Что у нас теперь получается с примером, когда спасение жизни вашей сестры приводит к тому, что чёрная дыра уничтожает Землю? В нашем формализме мы эту возможность упрощаем. Исходы не ведут к исходам, к исходам ведут только действия. Выздоровление вашей сестры от пневмонии, за которым следует уничтожение Земли чёрной дырой, становится одним «возможным исходом».

А где в этом простом формализме оказываются «инструментальные ценности»? А они полностью исчезают! Понимаете, в этом формализме действия ведут к исходам без каких-то промежуточных событий. Мы здесь не рассматриваем камень, который летит сквозь воздух, попадает в яблоко на дереве, в результате чего оно падает на землю. Бросок камня — это действие. Оно ведёт к исходу, в котором яблоко лежит на земле — в соответствии с функцией условной вероятности, которая превращает действия напрямую в распределение вероятностей по исходам.

Для того, чтобы на самом деле вычислить функцию условной вероятности, и для того, чтобы отдельно рассмотреть полезность сестры с пневмонией и чёрной дыры, поглощающей Землю, мы должны представить структуру причинно-следственных связей — как именно одни исходы ведут к другим.

И тут возвращаются инструментальные ценности. Если причинно-следственная сеть в достаточной степени «регулярна», возможно, вы обнаружите, что состояние B, скорее всего, ведёт к C. Тогда, если вы по каким-то причинам хотите достичь С, вы можете сперва запланировать достичь В, которое ведёт к С, а затем запланировать достичь А, которое ведёт к В. В этом весь смысл «инструментальных ценностей»: В является «инструментальной ценностью», потому что ведёт к С. С само по себе может считаться терминальной ценностью, аргументом функции полезности из пространства исходов. Или С может быть просто инструментальной ценностью, узлом, который невозможно оценить с помощью функции полезности напрямую.

Инструментальные ценности в этом формализме служат исключительно для эффективного планирования. Если нужной «регулярности» нет, от них можно и нужно избавиться.

Например предположим, что есть какое-то конкретное значение В, которое не ведёт к С. Предпримите вы действие А, которое ведёт к этому В? Или отбросим абстрактную философию. Если вы хотите попасть в супермаркет ради шоколада, и вы хотите поехать в супермаркет, и вам нужно попасть в машину, будете вы выламывать дверь машины паровым экскаватором? (Нет.) Инструментальные ценности — это «дырявые абстракции» (это словосочетание из нашего программистского жаргона). Иногда закэшированную ожидаемую полезность нужно выкидывать и вычислять заново. Чтобы быть эффективным и не самоубиться при этом, нужно в том числе замечать, когда привычные ходы перестают работать. Хотя описываемый формализм использует инструментальные ценности, они нужны только в тех случаях, когда присутствует необходимая «регулярность» и исключительно для удобства вычислений.

Однако если некто усложняет формализм до того, как понял простую версию, он иногда начинает думать, что инструментальные ценности живут какой-то своей странной жизнью, причём даже в нормативном смысле. В смысле, если сказать, что В — обычно хороший поступок, потому что он ведёт к С, то следует всегда пытаться сделать В — даже в отсутствие С. Занимаясь абстрактной философией, люди часто допускают такую ошибку, хотя в реальной жизни они никогда не выламывают дверь своей машины паровым экскаватором. Не понимая простой вариант формализма люди иногда думают, что невозможно появление консеквенциалиста, который максимизирует лишь генетическую приспособленность — ведь он умрёт от голода, если у него нет явной терминальной ценности «питаться». Люди совершают эту ошибку, хотя сами никогда не стоят целый день возле открытой машины из страха оказаться в ней запертой — ведь у них же нет терминальной ценности открывать дверь машины.

Инструментальные ценности обитают в функции условной вероятности. Из-за этого инструментальные ценности напрямую зависят от убеждений о поведении функции полезности. Если я убеждён, что пенициллин вызывает пневмонию, а отсутствие пенициллина её лечит, то для меня инструментальная ценность пенициллина упадёт. Убеждения меняются — меняется функция условной вероятности, которая связывает действия с ожидаемыми последствиями. И вместе с ней меняются и инструментальные ценности.

Когда люди спорят о морали, то иногда они спорят об инструментальных последствиях, а иногда — о терминальных ценностях. Если ваш оппонент заявляет, что запрет на ношение личного оружия ведёт к снижению количества преступлений, а вы утверждаете, что запрет на ношение оружия ведёт к увеличению количества преступлений, то вы согласны по поводу высшей инструментальной ценности (преступления — это плохо), но не согласны по вопросу, какое промежуточное событие ведёт к каким последствиям. Однако в споре о женском обрезании, как мне кажется, вряд ли у оппонентов есть общие представления о том, как справедливо обращаться с женщинами или как сделать их счастливее.

Во время особо яростных споров на это важное различие часто никто не обращает внимание. Люди, у которых есть общие ценности и разногласие по поводу фактов, приходят к мысли, что их оппонент наверняка социопат. Мол, если он выступает за ограничение/легализацию оружия, значит, он на самом деле хочет убивать людей. С точки зрения психологии это довольно не реалистично.

Боюсь, человеческий мозг не слишком хорошо видит различие между терминальными и инструментальными ценностями в вопросах морали. «Мы должны запретить оружие» и «Мы должны спасать жизни людей» выглядят схожими убеждениями о морали по своей форме. Хотя в остальном человеческая система целеполагания усложняет практически всё, именно это различие превращается в мешанину разных штук с условными ценностями.

Чтобы выделить терминальные ценности, нам нужно разобраться в этой мешанине ценных штук и понять, ценность каких из них привязана к чему-то ещё. Это очень сложно! Если вы говорите, что хотите запретить ношение оружия для того, чтобы уменьшить число преступлений, может потребоваться время, чтобы понять, что «уменьшение числа преступлений» — это не терминальная ценность, это более высокая инструментальная ценность, которая связана с терминальной ценностью человеческой жизни и человеческого счастья. А у человека, который защищает право на ношение оружия, это право может быть связано с более высокой инструментальной ценностью «уменьшение числа преступлений», а также с ценностью «свободы», которая может быть терминальной ценностью или ещё одной инструментальной ценностью…

Мы не в состоянии распечатать полную «сеть», как одни наши ценности выводятся из других ценностей. Скорее всего, мы даже не помним всю историю, откуда эти ценности взялись. Часто мы можем это понять, размышляя над правильными моральными дилеммами: «Сделаете ли вы Х в случае Y?» Но если вы всерьёз захотите понять, какие у вас терминальные ценности, на вашем пути встретится множество ловушек: запутывающих дилемм и сомнительных философских аргументов. Мы не знаем свои ценности и откуда они взялись. Мы можем это узнать лишь копаясь в наших процессах познания, а при этом мы обязательно будем ошибаться. Довольно сложно даже просто научиться сознательно различать понятия «терминальные ценности» и «инструментальные ценности», отслеживать, что они значат, и использовать их правильно. Только исследуя наш простой формализм мы можем понять, как это теоретически просто могло бы быть.

И я здесь ещё не касаюсь сложностей, связанных с человеческой системой вознаграждения — наших механизмов подкрепления. Есть шоколад приятно, предвкушать поедание шоколада приятно, но это разные случаи приятности…

Однако я не слишком горюю из-за всех этих сложностей.

Не знать собственные ценности — не всегда забавно. Но уж точно не скучно.

1. Автор здесь ссылается на текст Робина Хансона «Expert At Versus Expert On». — Прим.перев.

Перевод:

Alaric

Ссылка на оригинал:

Terminal Values and Instrumental Values

Ссылка на оригинал на readthesequences.com:

Terminal Values and Instrumental Values

Номер в книге "Рациональность: от ИИ до зомби":

148

Оцените качество перевода:

Короткая ссылка сюда: lesswrong.ru/458