Embeded Agency

Абрам Демски, Скотт Гаррабрант

В классических моделях, предполагается, что рациональный агент

· отделен от внешнего мира,
· имеет ограниченный набор стратегий для взаимодействия с внешним миром
· строит точные модели внешнего мира
· не имеет необходимости размышлять о себе или о том, из каких частей он состоит.

В статье приведен неформальный обзор препятствий к формализации хороших принципов принятия решений для агентов, которые являются частью среды, состояние которой они оптимизируют. Такие агенты должны оптимизировать состояние мира, что сильно отличается от привычной для математики оптимизации функций. Такие агенты должны использовать модели, которые входят в моделируемое пространство. Должны размышлять о себе как о просто ещё одной физической системе, сделанной из тех же составных частей что и остальной мир, частей, которые можно модифицировать и использовать в различных целях.

Введение

Предположим, вы хотите создать ИИ, чтобы достигнуть некоторых целей в реальном мире. Таких целей, что ИИ придется учиться и выяснять множество вещей, которых вы пока не знаете.

Выглядит как сложная инженерная проблема. Более того, не ясно даже, что значит построить обучающегося агента такого типа. Что значит оптимизировать действительные целей в физическом окружении? Или более обще, как все это должно работать?

В этой статье мы указываем на четыре пути, которые мы пока не знаем, как работают, и на четыре области активных исследований чтобы это выяснить.

Агенты помещенные в среду

Это Алексей. Алексей играет в видеоигру.

Как и большинство игр она имеет чистые каналы ввода и вывода информации, т.е. ограниченный и конкретизированный набор действий, которые может выполнить агент. Алексей наблюдает игру на экране и управляет через контроллер. Можно представить игру как функцию принимающую на вход последовательность нажатий кнопок и вычисляющую последовательность картинок, составленных из пикселей на экране.

Алексей умный. Он способен держать всю игру в своей голове. Для данной детерминированной игры он знает к какой последовательности картинок приведет любая последовательность нажатий кнопок. Это значит, что Алексей должен хранить в своей голове любую игру, которую он может сыграть.

У Алексея нет необходимости думать о себе. Он лишь оптимизирует игру, в которую играет и не оптимизирует мозг который использует чтобы думать об игре. Он все ещё может выбирать действия основываясь на ценности информации, но это помогает ему лишь исключить возможные игры в которые он играет, а не изменить способ, которым он думает.

Фактически, Алексей может рассматривать себя как неизменный неделимый атом. Так как его нет в окружении, о котором он думает, он может не беспокоиться о том, изменится ли он со временем или о любых подпрограммах, которые ему, возможно, придется запускать.

Обратите внимание, что все свойства описанные выше возможны, в частности, благодаря тому, что Алексей отделен от окружения, которое он оптимизирует.

Это Эмми. Эмми играет в реальности.

Реальный мир не похож на видеоигру. Различие в основном обусловлено фактом наличия Эмми в среде, которую она и пытается оптимизировать.

Алексей наблюдает мир как функцию. Он проводит оптимизацию выбирая такие входные значения для данной функции, которые ведут к наибольшему вознаграждению. У Эмми же нет функции. У неё есть лишь окружение. И в этом окружении присутствует она сама.

Эмми желает выбрать наилучшее из возможных действий, однако, действие которое выбирает Эмми просто ещё один факт об окружении. Эмми может рассуждать о части окружения, которая является её решением, но так как Эмми в конце концов выполнит лишь одно действие, не очень ясно даже, что значит для Эмми «выбирать» действие которое лучше, чем отдых.

Алексей может потыкать палочкой вселенную и посмотреть, что из этого выйдет. Эмми же сама является частью вселенной исследующей саму себя. Как в принципе, в таком случае формализовать идею выбора?

Дополнительное затруднение, так как Эмми является частью окружения, она должна быть меньше чем все окружение. Это значит, что Эмми неспособна хранить в своем мозгу детальную модель мира.

Это рождает проблему – баесианское мышление основывается на том, что вы берете большое множество возможных окружений, и, если вы наблюдаете факты противоречащие некоторым возможным окружениям, вы отбрасываете эти окружения. На что же должен быть похож такой образ мышления, если вы не способны держать в своей голове даже одну рабочую гипотезу о том, как работает ваш мир? Эмми придется использовать другой тип рассуждений и вносить обновления, которые не вписываются в стандартную байесовскую структуру суждения.

Эмми является частью окружения, на которое способна влиять, и потому может улучшать себя. Но как она может быть уверенна, что узнавая новое и находя все больше и больше путей для улучшения себя, она будет менять себя только таким образом, что это будет действительно полезно? Как можно быть уверенным, что она не изменит свои изначальные цели на нежелательные?

И наконец, так как Эмми является частью окружения, она не может рассматривать себя как нечто неделимое, как атом. Она сделана из тех же самых частей, что и остальное окружение, что приводит к тому, что она становится способна мыслить о себе самой.

В дополнение к опасностям внешнего окружения, Эмми придется беспокоится об угрозах внутри неё самой. В процессе оптимизации Эмми может создать другие оптимизаторы как подпрограммы, не важно желая того или нет. Эти подсистемы могут вызвать проблемы, если они станут слишком могущественными и несогласованными с целями Эмми. Поэтому ей придется выяснить как размышлять не создавая интеллектуальные подсистемы или же выяснить как поддерживать их слабыми, изолированными или полностью согласованными с целями Эмми.

С Эмми все очень сложно, а потому вернемся обратно к Алексею. Фреймворк Маркуса Хаттера (2005; 2012) AIXI дает хорошую теоретическую модель по которой агенты подобные Алексею работают:

Эта модель состоит из агента, окружения, взаимодействий между ними, наблюдаемых и наград. Агент выполняет действие а, на что окружение дает ответ – наблюдаемое состояние о и награду r. Этот процесс повторяется на каждом шаге k..m.

Каждое действие - это функция от всех предыдущих троек действие-наблюдаемое состояние-вознаграждение. И каждое состояние, и награда тоже функции этих троек и непосредственно совершенного действия.

Вы можете представить агента в этой модели как имеющего полное знание об окружении, при этом окружение с ним не взаимодействует. Однако, AIXI является моделью оптимизации в условиях неточного знания об окружении. AIXI содержит в себе распределение по всем вычислимым окружениям q, и выбирает действия которые ведут к более высокой ожидаемой награде для этого распределения. Так как модель заботится о будущих наградах, это может привести к изучению ценности информации.

Принимая некоторые предположения, мы можем показать, что AIXI довольно хороша во всех компьютерных окружениях несмотря на неточность. Однако, в то время как окружение, с которым взаимодействует AIXI вычислимо, сама по себе AIXI невычислима. Этот агент сделан на вычислительно более мощной базе, чем само окружение.

Мы будем называть агентов подобных AIXI и Алексею дуалистичными. Они существуют вне окружения, которое оптимизируют, с конкретным набором взаимодействий между агентом и окружением. Они требуют, чтобы агент был больше чем окружение, они не стремятся к моделированию собственного мышления, так как агент состоит не из того, о чем думает.

Кроме AIXI существуют и другие модели. Однако, вышеописанные допущения проявляются во всех лучших современных теориях рациональной агентности.

Мы используем AIXI для демонстрации проблем, но её можно использовать и для вдохновения. Когда смотришь на AIXI, то чувствуешь, что действительно понимаешь, как Алексей работает. И это как раз то понимание, которое мы хотим иметь по отношению к Эмми.

Но, к сожалению, в ситуации Эмми все запутано. Когда мы говорим о желании иметь теорию “embedded agency”, мы имеем ввиду, что хотим теоретически понимать, как работаю агенты подобные Эмми, агенты помещенные в среду и потому:

• не имеющие четко определенных каналов ввода-вывода информации
• более простые, чем окружение
• способные рассуждать о себе и самосовершенствоваться
• изготовленные из того же, что и окружение

Не стоит думать об этих четырех затруднениях как об отдельных задачах, они очень сильно связаны друг с другом.

К примеру, агент сможет самосовершенствоваться лишь в том случае, если он создан из частей. Так как окружение значительно больше агента, в нем могут содержаться его копии, что разрушает хорошо определенные каналы ввода-вывода.

Однако, мы будем использовать эти четыре затруднения чтобы разделить тему «embedded agency» на четыре подзадачи. Это: теория принятия решений, embedded world models, robust delegation, subsystem alignment.

Короткое описание проблем

Теория принятия решений кроме прочего, исследует встроенную оптимизацию.

Простейшая дуалистическая модель оптимизации - это оператор argmax. Он выполняет поиск аргумента функции соответствующего максимуму значения функции. В нашем случае он принимает на вход функцию которая вычисляет награду по некоторому действию и возвращает действие, которое ведет к максимальной награде.

И большей части оптимизаций можно мыслить, как о различных вариантах приведенного выше. У вас есть множество возможных действий, у вас есть функция отображающая каждое действие на некоторое число – значение награды или полезности, и вы хотите выбрать такое действие, чтобы получить максимальную награду.

Однако, мы обнаружили, что встроенный агент не может иметь функцию окружения. Как же должна работать оптимизация в таком случае? Без оптимизации нет агентности, но на настоящий момент мы не можем сказать, что такое оптимизация в данном случае, даже в теории, не совершая серьезных ошибок.

Несколько главных открытых проблем в теории принятия решений:

• Логические контрфактуальности: как можно размышлять о том, что могло бы произойти, если мы выполним действие Б, зная, что мы можем доказать, что вместо этого выберем действие А?
• В случае окружения которое содержит множество копий агента возникает проблема оценки степени доверия агентов
• если в окружении есть множество копий агента, как предсказать насколько можно доверять агенту?
• Logical updatelessness - про то, как скомбинировать очень хороший, но очень баесианский мир Wei Dai’s updateless теории принятия решений с намного менее баесианским миром логической неопределенности.

Embedded world models – про то, как создавать хорошие модели мира, которые могут поместиться в агента который много меньше самого мира.

Оказалось, что это очень непросто – во-первых, потому что это означает, что истинная вселенная не находится в пространстве гипотез агента, что разрушает ряд теоретических гарантий; и, во-вторых, потому что это означает, что агент должен выполнять не байесовское обновление модели по мере обучения, что также разрушает многие теоретические гарантии.

Также теория изучает, как создавать модели мира с точки зрения наблюдателя изнутри, и следующих из этого проблемах как, к примеру, anthropics.

Несколько главных открытых проблем в Embedded world models:

• Логическая неопределенность – о том, как скомбинировать мир логики с миром вероятностей
• Многоуровневое моделирование – о том, как иметь множество моделей того же самого мира на разных уровнях описания и мочь хорошо переключаться между ними
• Онтологический кризис – о том, что делать, когда ты понимаешь, что твоя модель, или, хуже того, твои цели были определены используя онтологию не соответствующую реальному миру.

Robust delegation – об особом типе проблемы главного агента. У вас есть исходный агент, который хочет сделать своего более интеллектуального последователя, чтобы он помогал оптимизировать его цели. С одной стороны исходный агент обладает всей властью так он полностью определяет каким будет агент-последователь. С другой же стороны агент последователь будет обладать всей властью так как он намного умнее исходного агента.

С точки зрения исходного агента задача состоит в том, как создать последователя, который точно не будет использовать свой интеллект против своего создателя. С точки зрения агента-последователя: «Как не совершив ошибки понять цели, как ценить цели агента, которого ты считаешь тупым, которым ты способен манипулировать, и который даже не использует правильную онтологию?» И здесь возникает дополнительные проблемы из-за того, что Lobian obstacle не позволяет непротиворечиво доверять мыслящей системе более мощной чем ты сам.

Вы можете размышлять о этой проблеме в контексте агента который со временем обучается, или в контексте совершения агентом значительного самоулучшения, или в контексте агента, который пытается создать могущественный инструмент.

Основные открытые проблемы в robust delegation:

• Vingean reflection – которая заключается в том, как размышлять и как доверять агентам существенно умнее тебя, несмотря на Löbian obstacle to trust
• Value learning – которая заключается в том, как агент-последователь будет познавать цели исходного агента, учитывая, что исходный агент может иметь противоречия в целях и низкий интеллект
• Corrigibility – которая заключается в том, как первоначальный агент может заставить агента-преемника разрешить (или даже помочь) вносить изменения, несмотря на инструментальный стимул не делать этого (Soares et al. 2015).

Subsystem alignment – о том как быть единым агентом не имеющим подсистем которые борются с ним самим или с другими подсистемами.

Если у агента есть цель похожая на «спасти мир», он может тратить много времени на размышления о подзадачах типа «добыть денег». Если агент породит субагента задачей которого будет только добывать деньги, то в мире будет два агента которые имеют различные цели, что приведет к конфликту. Субагент может придумать план который выглядит так будто он добывает деньги, но в действительности разрушает мир пытаясь добыть ещё больше денег.

Проблема состоит в том, что нам нужно не только беспокоиться о субагентах которых мы намеренно создаем. Нам также нужно беспокоиться о субагентах созданных случайно. Каждый раз, когда мы выполняем поиск или оптимизацию по достаточно богатому пространству которое способно вместить в себя агентов, мы должны позаботиться о том, что пространство само делает оптимизацию. Эта оптимизация может не соответствовать попыткам оптимизации внешней системы, но она будет иметь инструментальное намерение выглядеть так, будто она совпадает с оптимизацией внешней системы.

Многие практические методы оптимизации состоят в том, что вы находите не решение задачи оптимизации, а нечто что способно найти решение.

В принципе, мы совершенно не должны понимать как проводить оптимизацию, кроме как методы из серии найти непонятную кучку вещей и посмотреть, приводит ли она к нашим целям. Но именно этот подход склонен создавать конкурирующие подсистемы.

Большая открытая проблема в subsystem alignment заключается в том, чтобы создать оптимизатор базового уровня, который не будет создавать конкурирующих оптимизаторов. Можно ещё более раздробить эту проблему, рассмотрев случаи, когда результирующие оптимизаторы являются преднамеренными или непреднамеренными, и рассмотрев ограниченные подклассы оптимизации, такие как индукция.

Мы опишем каждую из этих проблем более детально, продолжая попытки держать в уме, что decision theory, embedded world-models, robust delegation, subsystem alignment не являются четырьмя отдельными проблемами. Это четыре различных подпроблемы единой концепции embedded agency.

Перевод: 
Khakhalin Ivan, Slava Meriton
Оцените качество перевода: 
Средняя оценка: 3.5 (4 votes)