Встроенная Агентность. Теория принятия решений

Абрам Демски, Скотт Гаррабрант

Примечание переводчика - из-за отсутствия на сайте нужного класса для того, чтобы покрасить текст в оранжевый цвет, я заменил его фиолетовым. Фиолетовый в тексте соответствует оранжевому на картинках.

Теория принятия решений и искусственный интеллект обычно пытаются вычислить что-то напоминающее

$$argmax_{a \in Actions}f(a)$$

Т.е. максимизировать некую функцию от действия. Тут предполагается, что мы можем в достаточной степени распутывать вещи, чтобы видеть исходы как функции действий.

К примеру, AIXI отображает агента и окружение как отдельные единицы, взаимодействующие во времени посредством чётко определённых каналов ввода/вывода, так что он может выбирать действия, максимизирующие вознаграждение.

Когда модель агента – часть модели окружения, становится куда менее ясно, как рассматривать исполнение альтернативных действий.

К примеру, раз агент меньше окружения, могут существовать другие копии агента, или что-то, очень похожее на агента. Это приводит к вызывающим споры задачам теории принятия решений, таким как Дилемма Заключённых Близнецов и задача Ньюкомба.

Если Эмми Модель 1 и Эмми Модель 2 имеют один и тот же опыт и исполняют один и тот же исходный код, то должна ли Эмми Модель 1 действовать, будто её решения направляют обоих роботов сразу? В зависимости от того, как вы проведёте границу вокруг «себя», вы можете думать, что контролируете действия обеих копий, или только свои.

Это частный случай проблемы контрфактуальных рассуждений: как нам оценивать гипотетические предположения вроде «Что, если бы солнце внезапно погасло?»

Задача адаптации теории принятия решений к встроенным агентам включает:

  • контрфакты
  • Рассуждения в духе задачи Ньюкомба, в которых агент взаимодействует с копией себя
  • Более широкие рассуждения о других агентах
  • Задачи о вымогательстве
  • Задачи о координации
  • Логические контрфакты
  • Логическую необновимость

Самый центральный пример того, почему агентам надо думать о контрфактах, касается контрфактов об их собственных действиях.

Сложность с контрфактуальными действиями можно проиллюстрировать задачей пять-и-десять. Предположим, у нас есть вариант взять пятидолларовую купюру или десятидолларовую, и всё, что нас волнует в этой ситуации – сколько денег мы получим. Очевидно, нам следует взять \$10.

Однако, надёжно брать \$10 не так просто, как кажется.

Если вы рассуждаете о себе просто как о ещё одной части окружения, то вы можете знать своё собственное поведение. Если вы можете знать своё собственное поведение, то становится сложно рассуждать о том, что бы случилось, если бы вы повели себя по-другому.

Это вставляет палки в колёса многих обычных методов рассуждений. Как нам формализовать идею «Взять \$10 приводит к хорошим последствиям, а взять \$5 приводит к плохим последствиям», если значительно богатое знание себя вскрывает, что один из этих сценариев внутренне противоречив?

А если мы не можем так формализовать никакую идею, то каким образом агенты в реальном мире всё равно догадываются взять \$10?

Если мы попробуем вычислить ожидаемую полезность наших действий обычным Байесовским способом, то знание своего собственного поведения приводит к ошибке деления на ноль, когда мы пытаемся вычислить ожидаемую полезность действий, которые мы не выбрали: $¬A$, следовательно $P(A)=0$, следовательно $P(B\&A)=0$, следовательно

$$P(B|A)=\frac{P(B\&A)}{P(A)}=\frac{0}{0}$$

Из-за того, что агент не знает, как отделить себя от окружения, у него заедают внутренние шестерни, когда он пытается представить, как он совершает другое действие.

Но самое большое затруднение вытекает из Теоремы Лёба, которая может заставить в агента, выглядящего в остальном разумно, взять \$5, потому что «Если я возьму \$10, я получу \$0»! И это будет стабильно 0 – проблема не решается тем, что агент обучается или больше о ней думает.

В это может быть сложно поверить; так что давайте посмотрим на детализированный пример. Явление можно проиллюстрировать поведением простых основанных-на-логике агентов, рассуждающих о задаче пять-и-десять.

Рассмотрим такой пример:

У нас есть исходный код агента и вселенной. Они могут рекурсивно ссылаться на код себя и друг друга. Вселенная простая – она просто выводит то, что выводит агент.

Агент тратит много времени в поисках доказательств о том, что произойдёт, если он предпримет различные действия. Если для неких $x$ и $y$, которые могут быть равны 0, 5, или 10, он найдёт доказательство того, что взятие 5 приводит к $x$ полезности, а взятие 10 приводит к $y$ полезности, и что $x>y$, то он, естественно, возьмёт 5. Мы ожидаем, что он не найдёт такого доказательства, и вместо этого выберет действие по умолчанию, взяв 10.

Это кажется простым, когда вы просто представляете агента, который пытается рассуждать о вселенной. Но оказывается, что если время, потраченное на поиск доказательств достаточно велико, то агент будет всегда выбирать 5!

Это доказывается через теорему Лёба. Теорема Лёба гласит, что для любого высказывания $P$, если вы можете доказать, что из доказательства $P$ следовала бы истинность $P$, то тогда вы можете доказать $P$. Формальная запись, где «$□X$» означает «$X$ доказуемо»:

$$□(□P→P)→□P$$

В данной мной версии задачи пять-и-десять, «$P$» – это утверждение «если агент возвращает 5, то вселенная возвращает 5, а если агент возвращает 10, то вселенная возвращает 0».

Если предположить, что оно истинно, то агент однажды найдёт доказательство и действительно вернёт 5. Это сделает высказывание истинным, ведь агент возвращает 5, и вселенная возвращает 5, а то, что агент возвращает 10 – ложно. А из ложных предпосылок вроде «агент возвращает 10» следует всё, что угодно, включая то, что вселенная возвращает 0.

Агент может (при наличии достаточного времени) доказать всё это, а в этом случае агент действительно докажет «если агент возвращает 5, то вселенная возвращает 5, а если агент возвращает 10, то вселенная возвращает 0». И как результат, агент возьмёт \$5.

Мы называем это «поддельным доказательством»: агент берёт \$5, потому что он может доказать, что, если он возьмёт \$10, ценность будет низка, потому что он берёт \$5. Это звучит неправильно, но, к сожалению, это логически корректно. В более общем случае, работая в менее основанных на доказательствах обстановках, мы называем это проблемой поддельных контрфактов.

Общий шаблон такой: контрфакты могут поддельно отмечать действия как не слишком хорошее. Это заставляет ИИ не выбирать это действие. В зависимости от того, как контрфакты работают, это может убрать любую обратную связь, которая могла бы «исправить» проблематичный контрфакт; или, как мы видели с рассуждением, основанным на доказательствах, это может активно помогать поддельным контрфактам быть «истинными».

Замечу, что раз основанные на доказательствах примеры для нас значительно интересны, «контрфакты» должны на самом деле быть контрлогическими; нам иногда надо рассуждать о логически невозможных «возможностях». Это делает неподходящими самые впечатляющие достижения рассуждений о контрфактах.

Вы можете заметить, что я немного считерил. Единственным, что сломало симметрию и привело к тому, что агент взял \$5, было то, что это было действием, предпринимаемым в случае нахождения доказательства, а «10» было действием по умолчанию. Мы могли бы вместо этого рассмотреть агента, который ищет доказательство о том, какое действие приводит к какой полезности, и затем совершает действие, которое оказалось лучше. Тогда выбранное действие зависит от того, в каком порядке мы ищем доказательства.

Давайте предположим, что мы сначала ищем короткие доказательства. В этом случае мы возьмём \$10, потому что очень легко показать, что $A()=5$ приведёт к $U()=5$, а $A()=10$ приведёт к $U()=10$.

Проблема в том, что поддельные доказательства тоже могут быть короткими и не становятся сильно длиннее, когда вселенная становится сложнее для предсказания. Если мы заменим вселенную такой, доказываемая функциональность которой такая же, но её сложнее предсказать, то кратчайшее доказательство обойдёт её сложное устройство и будет поддельным.

Люди часто пытаются решить проблему контрфактов, предполагая, что всегда будет некоторая неуверенность. ИИ может идеально знать свой исходный код, но он не может идеально знать «железо», на котором он запущен.

Решает ли проблему добавление небольшой неуверенности? Зачастую нет:

  • Доказательства поддельных контрфактов часто всё ещё есть; если вы думаете, что вы в задаче пять-и-десять с уверенностью в 95%, то у вас может возникнуть всё та же проблема в пределах этих 95%.
  • Добавление неуверенности для хорошего определения контрфактов не даёт никакой гарантии, что контрфакты будут осмысленными. Вы нечасто хотите ожидать неполадок «железа» при рассмотрении альтернативных действий.

Рассмотрим такой сценарий: Вы уверены, что почти всегда выбираете пойти налево. Однако, возможно (хоть и маловероятно), что космический луч повредит ваши схемы, в каком случае вы можете пойти направо – но тогда вы сойдёте с ума, что приведёт к множеству других плохих последствий.

Если само это рассуждение – причина того, что вы всегда идёте налево, то всё уже пошло не так.

Просто удостовериться, что у агента есть некоторая неуверенность в своих действиях, недостаточно, чтобы удостовериться, что контрфактуальные ожидания агента будут хоть отдалённо осмысленны. Однако, то, что можно попробовать вместо этого – это удостовериться, что агент действительно выбирает каждое действие с некоторой вероятностью. Эта стратегия называется ε-исследование.

ε-исследование уверяет, что если агент играет в схожие игры достаточно много раз, то он однажды научится реалистичным контрфактам (без учёта реализуемости, до которой мы доберёмся позже).

ε-исследование работает только если есть гарантия, что сам агент не может предсказать, будет ли он ε-исследовать. На самом деле, хороший способ реализовать ε-исследование – воспользоваться правилом «если агент слишком уверен, какое действие совершит, совершить другое».

С логической точки зрения непредсказуемость ε-исследования – то, что предотвращает рассмотренные нами проблемы. С точки зрения теоретического обучения, если бы агент мог знать, что он не собирается исследовать, то он трактовал бы это как отдельный случай – и не смог бы обобщить уроки от исследования. Это возвращает нас к ситуации, в которой у нас нет никаких гарантий, что агент научится хорошим контрфактам. Исследование может быть единственным источником данных о некоторых действиях, так что нам надо заставить агента учитывать эти данные, или он может не обучиться.

Однако, кажется даже ε-исследование не решает всё. Наблюдение результатов ε-исследования показывает вам, что произойдёт, если вы предпримете действие непредсказуемо; последствия выбора этого действия в обычном случае могут быть иными.

Предположим, вы ε-исследователь, который живёт в мире ε-исследователей. Вы нанимаетесь на работу сторожем, и вам надо убедить интервьюера, что вы не такой человек, который бы сбежал, прихватив то, что сторожит. Они хотят нанять кого-то, достаточно честного, чтобы не врать и не воровать, даже считая, что это сойдёт с рук.

Предположим, что интервьюер изумительно разбирается в людях – или просто имеет доступ к вашему исходному коду.

В этой ситуации кража может быть замечательным вариантом как действие ε-исследования, потому что интервьюер может быть неспособен её предсказать, или может не считать, что одноразовую аномалию имеет смысл наказывать.

Но кража – явно плохая идея как нормальное действие, потому что вас будут считать куда менее надёжным и достойным доверия.

Если мы не обучаемся контрфактам из ε-исследования, то кажется, что у нас вовсе нет гарантии обучиться реалистичным контрфактам. Но если мы обучаемся из ε-исследования, то кажется, что мы всё равно в некоторых случаях делаем всё неправильно.

Переключение в вероятностную обстановку не приводит к тому, что агент надёжно делает «осмысленные» выборы, насильное исследование – тоже.

Но написать примеры «правильных» контрфактуальных рассуждений не кажется сложным при взгляде снаружи!

Может, это потому, что «снаружи» у нас всегда дуалистическая точка зрения. Мы на самом деле сидим снаружи задачи, и мы определили её как функцию агента.

Однако, агент не может решить задачу тем же способом изнутри. С его точки зрения его функциональное отношение с окружением – не наблюдаемый факт. В конце концов, потому контрфакты и называются «контрфактами».

Когда я рассказал вам о задаче пять-и-десять, я сначала рассказал о задаче, а затем выдал агента. Когда один агент не работает, мы можем рассмотреть другого.

Обнаружение способа преуспеть с задачей принятия решений включает нахождение агента, который, если его вставить в задачу, выберет правильное действие. Тот факт, что мы вообще рассматриваем помещение туда разных агентов, означает, что мы уже разделили вселенную на часть «агента» и всю остальную вселенную с дыркой для агента – а это большая часть работы!

Тогда не обдурили ли мы себя тем, как поставили задачи принятия решений? «Правильных» контрфактов не существует?

Ну, может быть мы действительно обдурили себя. Но тут всё ещё есть что-то, приводящее нас в замешательство! Утверждение «Контрфакты субъективны и изобретаются агентом» не развеивает тайну. Есть что-то, что в реальном мире делают интеллектуальные агенты для принятия решений.

Итак, я не говорю об агентах, которые знают свои собственные действия, потому что я думаю, что с разумными машинами, выводящими свои будущие действия, будет большая проблема. Скорее, возможность знания своих собственных действий иллюстрирует что-то непонятное об определении последствий своих действий – замешательство, которое всплывает даже в очень простом случае, где всё о мире известно и просто нужно выбрать самую большую кучу денег.

При всём этом, у людей, кажется, выбор \$10 не вызывает никаких трудностей.

Можем ли мы черпать вдохновение из того, как люди принимают решения?

Ну, предположим, что вас действительно попросили выбрать между \$10 и \$5. Вы знаете, что возьмёте \$10. Как вы рассуждаете о том, что бы произошло, если бы вы вместо этого взяли \$5?

Это кажется легко, если вы можете отделить себя от мира, так что вы думаете только о внешних последствиях (получении \$5).

Если вы думаете ещё и о себе, то контрфакт начинает казаться несколько более странным и противоречивым. Может, у вас будет какое-нибудь абсурдное предсказание о том, каким был бы мир, если бы вы выбрали \$5 – вроде «Я должен был бы быть слепым!»

Впрочем, всё в порядке. В конце концов вы всё равно видите, что взятие \$5 привело бы к плохим последствиям, и вы всё ещё берёте \$10, так что у вас всё хорошо.

Проблема для формальных агентов в том, что агент может находиться в похожем положении, кроме того, что он берёт \$5, знает, что он берёт \$5, и не может понять, что ему вместо этого следует брать \$10, из-за абсурдных предсказаний, которые он делает о том, что происходит, когда он берёт \$10.

Для человека кажется трудным оказаться в подобной ситуации; однако, когда мы пытаемся написать формального проводящего рассуждения агента, мы продолжаем натыкаться на проблемы такого рода. Так что в самом деле получается, что человеческое принятие решений делает что-то, чего мы пока не понимаем.

Если вы – встроенный агент, то вы должны быть способны мыслить о себе, точно так же, как и о всём остальном в окружении. И другие обладатели способностью к рассуждению в вашем окружении тоже должны быть способны мыслить о вас.

Из задачи пять-и-десять мы увидели, насколько всё может стать запутанным, когда агент знает своё действие до того, как действует. Но в случае встроенного агента этого сложно избежать.

Особенно сложно не знать своё собственное действие в стандартном Байесовским случае, подразумевающем логическое всеведенье. Распределение вероятностей присваивает вероятность 1 любому логически истинному факту. Так что если Байесовский агент знает свой собственный исходный код, то он должен знать своё собственное действие.

Однако, реалистичные агенты, не являющиеся логически всеведущими, могут наткнуться на ту же проблему. Логическое всеведенье точно к ней приводит, но отказ от логического всеведенья от неё не избавляет.

ε-исследование во многих случаях кажется решающим проблему, удостоверяясь, что у агентов есть неуверенность в собственных выборах, и что то, что они ожидают, базируется на опыте.

Однако, как мы видели в примере сторожа, даже ε-исследование, кажется, неверно нас направляет, когда результаты случайного исследования отличаются от результатов надёжных действий.

Случаи, в которых всё может пойти не так таким образом, кажется, включают другую часть окружения, которая ведёт себя подобно вам – другой агент, очень на вас похожий, или достаточно хорошая модель или симуляция вас. Это называется Ньюкомбоподобными задачами; пример – Дилемма Заключённых Близнецов, упомянутая выше.

 Если задача пять-и-десять касается выделения вас как части мира так, чтобы мир можно было считать функцией от вашего действия, то Ньюкомбоподобные задачи – о том, что делать, если приблизительно подобных вам частей мира несколько.

Есть идея, что точные копии следует считать находящимися на 100% под вашим «логическим контролем». Для приблизительных копий вас или всего лишь похожих агентов, контроль должен резко падать по мере снижения логической корреляции. Но как это работает?

Ньюкомбоподобные задачи сложны по почти той же причине, что и ранее обсуждённые проблемы самореференции: предсказание. Стратегиями вроде ε-исследования мы пытались ограничить знания агента о себе, пытаясь избежать проблем. Но присутствие мощных предсказателей в окружении вводит проблему заново. Выбирая, какой информацией делиться, предсказатели могут манипулировать агентом и выбирать его действия за него.

Если есть что-то, что может вас предсказывать, то оно может сказать вам своё предсказание, или связанную информацию, а в этом случае важно, что вы сделаете в ответ на разные вещи, которые вы можете узнать.

Предположим, вы решаете делать противоположное тому, что вам сказали, чем бы это ни было. Тогда этот сценарий был невозможен изначально. Либо предсказатель всё же не точный, либо предсказатель не поделился с вами своим предсказанием.

С другой стороны, предположим, что есть некая ситуация, в которой вы действуете как предсказано. Тогда предсказатель может контролировать, как вы себя поведёте, контролируя то, какое предсказание вам рассказать.

Так что, с одной стороны, мощный предсказатель может контролировать вас, выбирая между внутренне непротиворечивыми возможностями. С другой стороны, изначально всё же вы выбираете свои паттерны реагирования. Это означает, что вы можете настроить их для своего преимущества.

Пока что мы обсуждали контрфактуальные действия – как предсказать последствия различных действий. Обсуждение контролирования своих реакций вводит контрфактуальные наблюдения – представление, как выглядел бы мир, если бы наблюдались иные факты.

Даже если никто не сообщает вам предсказаний о вашем будущем поведении, контрфактуальные наблюдения всё ещё могут играть роль в принятии верных решений. Рассмотрим такую игру:

Алиса получает случайную карту – либо туза, либо двойку. Она может объявить, что это за карта (только истинно), если хочет. Затем Боб выдаёт вероятность $p$, того, что у Алисы туз. Алиса всегда теряет $p^{2}$ долларов. Боб теряет $p^{2}$, если карта – двойка, и $(1−p)^{2}$, если карта – туз.

У Боба подходящее правило оценивания, чтобы ему лучше всего было выдавать его настоящую вероятность. Алиса просто хочет, чтобы оценка Боба как можно больше склонялась к двойке.

Предположим, Алиса играет только один раз. Она видит двойку. Боб способен хорошо рассуждать об Алисе, но находится в другой комнате, так что не может считывать невербальные подсказки. Следует ли Алисе объявить свою карту?

Раз у Алисы двойка, то если она объявит об этом Бобу, то она не потеряет денег – лучший возможный исход. Однако, это означает, что в контрфактуальном мире, где Алиса видит туза, она не может оставить это в секрете – она могла бы с тем же успехом показать карту и в этом случае, поскольку её нежелание сделать это является настолько же надёжным сигналом «туз».

С одной стороны, если Алиса не показывает свою карту, она теряет 25¢ – но тогда она может применить ту же стратегию и в другом мире, а не терять \$1. Так что до начала игры Алиса хотела бы явно дать обязательство не объявлять карту: это приводит к ожидаемым потерям в 25¢, а другая стратегия – к 50¢. Учитывая контрфактуальные наблюдения Алиса получает способность хранить секреты – а без этого Боб мог бы идеально вывести её карту из её действий.

Это игра эквивалентна задаче принятия решений, которая называется контрфактуальное ограбление.

Необновимая Теория Принятия Решений (UDT) – предлагаемая теория, позволяющая хранить секреты в такой игре. UDT делает это, рекомендуя агенту делать то, что казалось бы наиболее мудрым заранее – то, что ранняя версия себя обязалась бы делать.

Заодно UDT ещё и хорошо справляется с Ньюкомбоподобными задачами.

Может ли что-то вроде UDT быть связанным с тем, что, хоть и только неявно, делают люди, чтобы приходить к хорошим результатам задач принятия решений? Или, если нет, может ли она всё равно быть хорошей моделью для рассуждений о принятии решений?

К сожалению, тут всё ещё есть довольно глубокие сложности. UDT – элегантное решение к довольно широкому классу задач, но имеет смысл только в случае, когда ранняя версия себя может предвидеть все возможные ситуации.

Это хорошо работает в Байесовском случае, содержащем все возможности в априорной оценке. Однако в реалистичном встроенном случае сделать это может быть невозможно. Агент должен быть способен думать о новых возможностях – а значит, ранняя версия себя не знала достаточно, чтобы принять все решения.

И тут мы напрямую сталкиваемся с проблемой встроенных моделей мира.

Перевод: 
Выменец Максим
Оцените качество перевода: 
Голосов пока нет