Вы здесь

Встроенная Агентность. Устойчивое делегирование

Абрам Демски, Скотт Гаррабрант

Примечание переводчика - из-за отсутствия на сайте нужного класса для того, чтобы покрасить текст в оранжевый цвет, я заменил его фиолетовым. Фиолетовый в тексте соответствует оранжевому на картинках.

Так как мир большой, агента самого по себе, а в частности – его мыслительных способностей, может быть недостаточно, чтобы достигнуть его целей.

Поскольку агент состоит из частей, он может улучшать себя и становиться способнее.

Усовершенствования могут принимать много форм: агент может создавать инструменты, агент может создавать агентов-наследников, или агент может просто со временем учиться и расти. Наследники или инструменты, чтобы стоило их создавать, должны быть способнее агента.

Это приводит к особой разновидности проблемы принципала-агента:

Пусть есть изначальный агент и агент-наследник. Изначальный агент решает, каким в точности будет наследник. Наследник, однако, куда умнее и могущественнее, чем изначальный агент. Мы хотим знать, как сделать так, чтобы агент-наследник устойчиво оптимизировал цели изначального агента.

Вот три примера того, как может выглядеть эта проблема:

В задаче согласования ИИ человек пытается создать ИИ-систему, которой можно будет доверять, что она будет помогать в достижении целей человека.

В задаче замощающих агентов, агент пытается увериться, что он может доверять своей будущей версии, что она будет помогать в достижении целей агента.

Или мы можем рассмотреть более сложную версию – стабильное самоулучшение – когда ИИ-система должна создать наследника, более умного, чем она сама, но надёжного и помогающего.

Как человеческие аналогии, не включающие ИИ, можно подумать о проблеме наследования в монархии или более обобщённо о проблеме уверенности в том, что организация будет добиваться желаемых целей и не потеряет своё предназначение со временем.

Сложность состоит из двух частей:

Во-первых, человек или ИИ может не полностью понимать себя и свои собственные цели. Если агент не может записать что он хочет во всех деталях, то ему сложно гарантировать, что наследник будет устойчиво помогать с этими целями.

Во-вторых, вся идея делегирования работы в том, что вам не нужно делать всю работу самому. Вы хотите, чтобы наследник был способен на некоторую степень автономии, включая изучение неизвестного вам и заполучение новых навыков и способностей.

В пределе по-настоящему хорошее формальное описание устойчивого делегирования должно быть способно безошибочно обрабатывать произвольно способных наследников – вроде человека или ИИ, создающего невероятно умного ИИ, или вроде агента, продолжающего расти и учиться так много лет, что он становится намного умнее, чем его прошлая версия.

Проблема не (только) в том, что агент-наследник может быть злонамерен. Проблема в том, что мы даже не знаем что для него значит таким не быть.

Она кажется сложной с обеих точек зрения.

Исходному агенту необходимо выяснить, насколько надёжно и достойно доверия нечто, куда могущественнее его, что кажется очень сложным. А агенту-наследнику необходимо выяснить, что делать в ситуациях, которых исходный агент вообще не понимает, и пытаться уважать цели чего-то, что, как наследник может видеть, непоследовательно, а это тоже кажется очень сложным.

На первый взгляд может показаться, что это менее фундаментальная проблема, чем «принимать решения» или «иметь модели». Но точка зрения, с которой задача «создания наследника» предстаёт в многих формах, сама по себе дуалистична.

Для встроенного агента будущая версия себя не привелегирована; просто ещё одна часть окружения. Нет глубокой разницы между созданием наследника, разделяющего твои цели и просто уверенностью, что твои собственные цели останутся теми же со временем.

Так что, хоть я и говорю об «исходном» агенте и агенте-«наследнике», помните, что суть не в узкой задаче, с которой сейчас столкнулись люди. Суть в фундаментальной проблеме того, как оставаться тем же агентом, обучаясь со временем.

Мы можем назвать этот кластер задач Устойчивым Делегированием. Примеры включают:

Представьте, что вы играете в CIRL с младенцем.

CIRL означает Кооперативное Обратное Обучение с Подкреплением. Основная идея в основе CIRL – определить, что значит для робота сотрудничать с человеком. Робот пытается предпринимать полезные действия, одновременно пытаясь выяснить, чего человек хочет.

Много нынешней работы по устойчивому делегированию исходит из цели согласовать ИИ-системы с тем, чего хотят люди. Так что обычно мы думаем об этом с точки зрения человека.

Но представьте, как задача выглядит с точки зрения умного робота, который пытается помочь кому-то, находящемуся в крайнем замешательстве по поводу вселенной. Представьте каково пытаться помогать младенцу оптимизировать его цели.

  • С вашей точки зрения младенец слишком иррационален, чтобы оптимизировать что бы то ни было.
  • Младенец может обладать онтологией, в которой он что-то оптимизирует, но вы можете видеть, что эта онтология не имеет смысла.
  • Может, вы замечаете, что если вы правильно будете задавать вопросы, то вы сможете сделать так, чтобы казалось, что младенец хочет почти чего угодно. (проблемы с «что» в двух пунктах)

Часть проблемы в том, что «помогающий» агент должен в каком-то смысле быть больше, чтобы быть способнее; но это, кажется, подразумевает, что «получающий помощь» агент не может быть хорошим надсмотрщиком «помогающего».

К примеру, необновимая теория принятия решений избавляется от динамических непоследовательностей в теории принятия решений тем, что вместо максимизации ожидаемой полезности вашего действия с учётом того, что вам известно, максимизирует ожидаемую полезность реакций на наблюдения из состояния незнания.

Как бы она ни была привлекательна как способ достижения рефлексивной последовательности, она приводит к странной ситуации в плане вычислительной мощности: если действия имеют тип $A$, а наблюдения тип $O$, то реакции на наблюдения имеют тип $O→A$ – куда большее пространство для оптимизации, чем просто $A$. И мы ожидаем, что наше меньшее я способно это делать!

Это, кажется, плохо.

Один способ более чётко выразить проблему: мы должны быть способны доверять будущим себе, что они будут применять свой интеллект, преследуя наши цели, не будучи способными точно предсказать, что наши будущие версии будут делать. Этот критерий называется рефлексией Винджа.

К примеру, вы можете планировать свой маршрут поездки перед посещением нового города, но не планировать шаги. Вы планируете до какого-то уровня деталей и доверяетесь своей будущей версии, что она сообразит остальное.

Рефлексия Винджа сложна для рассмотрения через призму классической Байесианской теории принятия решений, потому что та подразумевает логическое всеведенье. При его условии допущение «агент знает, что его будущие действия рациональны» синонимично с допущением «агент знает, что его будущая версия будет действовать согласно одной конкретной оптимальной стратегии, которую агент может предсказать заранее».

У нас есть некоторые ограниченные модели рефлексии Винджа (см. «Замощающие Агенты Самомодифицирующегося ИИ и Лёбово Препятствие» Юдковского и Херршоффа). Успешный подход должен пройти по тонкой линии между этими двумя проблемами:

  • Лёбово Препятствие: Агенты, доверяющие своим будущим версиям, потому что могут доверять выводам своих собственных рассуждений, непоследовательны.
  • Парадокс Прокрастинации: Агенты, которые доверяют своим будущим версиям без причины, склонны быть последовательными, но ненадёжными и недостойными доверия, и будут откладывать задачи на потом вечно, потому что могут сделать их позже.

Результаты исследования рефлексии Винджа пока что применимы только к ограниченному классу процедур принятия решений, вроде добирания до порога приемлемости. Так что это ещё много куда можно развивать, получая результаты замощения для более полезных вариантов и при меньших допущениях.

Однако устойчивое делегирование – больше, чем просто замощение и рефлексия Винджа.

Когда вы конструируете другого агента, а не делегируете что-то будущему себе, вы более напрямую сталкиваетесь с проблемой загрузки ценностей.

Основные проблемы:

Эффект усиления известен как Закон Гудхарта, в честь Чарльза Гудхарта, заметившего: «Любая наблюдаемая статистическая закономерность склонна коллапсировать, когда на неё оказывается давление с целями контроля.»

Когда мы определяем цель оптимизации, имеет смысл ожидать, что она будет коррелировать с тем, чего мы хотим – в некоторых случаях, сильно коррелировать. Однако, к сожалению, это не означает, что её оптимизация приблизит нас к тому, что мы хотим – особенно на высоких уровнях оптимизации.

Есть (как минимум) четыре вида Гудхарта: регрессионный, экстремальный, каузальный и состязательный.

Регрессионный Гудхарт происходит, когда корреляция между прокси и целью неидеальна. Он более известен как проклятье оптимизатора, и связан с регрессией к среднему.

Пример регрессионного Гудхарта: вы можете выбирать игроков в баскетбольную команду на основании лишь роста. Это не идеальная эвристика, но между ростом и способностями к баскетболу есть корреляция, которую вы можете использовать для своего выбора.

Оказывается, что в некотором смысле вы будете предсказуемо разочарованы, если будете ожидать, что общий тренд так же хорошо работает и для вашей выбранной команды.

В статистических терминах: несмещённая оценка $y$ при данном $x$ – не то же самое, что несмещённая оценка $y$, когда мы выбираем лучший $x$. В этом смысле мы ожидаем, что будем разочарованы, используя $x$ как прокси для $y$ в целях оптимизации.

(Графики в этом разделе вручную нарисованы для иллюстрации важных концепций.)

Используя Байесовскую оценку вместо несмещённой, мы можем избавиться от этого предсказуемого разочарования. Байесовская оценка учитывает зашумлённость $x$, склоняющую в сторону типичных значений $y$.

Это необязательно позволит нам получить $y$ получше, потому что мы всё ещё действуем только на основании информации о $x$. Но иногда может и сработать. Если $y$ нормально распределён с дисперсией 1, а $x$ – это $y±10$ с равными шансами на + и −, то Байесовская оценка приведёт к лучшим результатам оптимизации, почти полностью удаляя шум.

Регрессионный Гудхарт кажется самой простой для одолевания формой Гудхарта: просто используйте Байесовскую оценку!

Однако, с этим решением есть две больших проблемы:

  • В интересующих нас случаях Байесовская оценка зачастую трудновыводима.
  • Доверять Байесовской оценке имеет смысл только при допущении реализуемости.

Случай, когда обе эти проблемы становятся критичны – вычислительная теория обучения.

Зачастую вычисление Байесовской ожидаемой ошибки обобщения гипотезы совершенно неосиливаемо. А если вы и можете это сделать, то всё равно придётся беспокоиться о том, достаточно ли хорошо отображает мир ваше выбранное априорное распределение.

В экстремальном Гудхарте оптимизация выталкивает вас за пределы области, где существует корреляция, в части распределения, которые ведут себя совсем по-другому.

Это особенно пугает, потому что приводит к оптимизаторам, ведущим себя в разных контекстах совершенно по-разному, зачастую почти или совсем без предупреждения. Вы можете не иметь возможности увидеть, как ломается прокси на слабом уровне оптимизации, но, когда оптимизация становится достаточно сильной, вы переходите в совсем другую область.

Разница между экстремальным Гудхартом и регрессионным Гудхартом связана с классическим разделением интерполяции/экстраполяции.

Поскольку экстремальный Гудхарт включает резкое изменение поведения при масштабировании системы, его сложнее предвосхитить, чем регрессионный.

Как и в регрессионном случае, Байесовское решение справляется с проблемой в теории, если вы верите, что распределение вероятностей достаточно хорошо отображает возможные риски. Однако, реализуемость тут становится ещё более проблемной.

Можно ли довериться, что априорное распределение предвосхитит проблем с предложениями, когда эти предложения будут сильно оптимизированы, чтобы хорошо выглядеть для этого конкретного распределения? Уж точно в таких условиях нельзя верить человеческим суждениям – это наблюдение подсказывает, что проблема останется, даже если суждения системы о ценностях идеально отображают человеческие.

Можно сказать, что проблема такова: «типичные» выводы избегают экстремального Гудхарта, но «слишком сильная оптимизация» выводит нас из области типичного.

Но как нам формализовать «слишком сильную оптимизацию» в терминах теории принятия решений?

Квантилизация предлагает формализацию для «как-то оптимизировать, но не слишком сильно».

Представьте прокси $V(x)$ как «испорченную» версию функции, которая нам на самом деле важна – $U(x)$. Могут быть разные области, в которых уровень испорченности ниже или выше.

Предположим, мы дополнительно определили «доверенное» распределение вероятностей $P(x)$, для которого мы уверены, что средняя ошибка в нём ниже некого порога $c$.

Оговаривая $P$ и $c$ мы даём информацию о том, где находятся точки с низкой ошибкой, без необходимости иметь оценки $U$ или настоящей ошибки в любой конкретной точке.

Когда мы случайно выбираем действия из $P$, мы можем быть уверены в низкой вероятности большой ошибки.

Так как нам это использовать для оптимизации? Квантилайзер выбирает из $P$, но выкидывает всё, кроме верхней доли $f$; к примеру, кроме верхнего 1%. В этой визуализации я благоразумно выбрал долю, в которой большая часть вероятности сконцентрирована в «типичных» вариантах, а не в выбросах:

Квантилизируя мы гарантируем, что если мы переоценили, насколько что-то хорошо, то ожидание того, насколько мы переоценили – максимум $\frac{c}{f}$. Ведь в худшем случае вся переоценка взялась из $f$ лучших вариантов.

Так что мы можем выбрать приемлемый уровень риска $r = \frac{c}{f}$ и выбрать параметр $f$ как $\frac{c}{r}$.

Квантилизация весьма привлекательна, потому что она позволяет нам определить безопасные классы действий, не доверяя всем отдельным действиям в классе – или даже не доверяя никакому отдельному действию в классе.

Если у вас есть достаточно большая куча яблок, и в ней только одно гнилое яблоко, то случайный выбор скорее всего безопасен. «Не очень сильно оптимизируя» и выбирая случайное достаточно-хорошее действие мы делаем экстремальные варианты маловероятными. Напротив, если бы мы оптимизировали так сильно, как возможно, мы бы в итоге выбирали только плохие яблоки.

Однако, этот подход всё же оставляет желать лучшего. Откуда берутся «доверенные» распределения? Как вы оцениваете ожидаемую ошибку $c$, или выбираете приемлемый уровень риска $r$? Квантилизация – рискованный подход, потому что $r$ предоставляет вам рычаг, потянув за который вы явно улучшите качество работы, увеличивая риск, пока (возможно внезапно) не провалитесь.

В дополнение к этому, квантилизация, кажется, не будет замощать. То есть, квантилизирующий агент не имеет особой причины сохранять алгоритм квантилизации, улучшая себя или создавая новых агентов.

Так что, кажется, способам справляться с экстремальным Гудхартом ещё есть много куда расти.

Другой способ, которым оптимизация может пойти не туда – когда выбор прокси ломает связь с тем, что нас интересует. Каузальный Гудхарт происходит, когда вы наблюдаете корреляцию между прокси и целью, но, когда вы вмешиваетесь, чтобы увеличить прокси, увеличить цель не получается, потому что наблюдавшаяся корреляция не была правильным образом каузальной.

Пример каузального Гудхарта – вы можете попробовать заставить пойти дождь, ходя по улице с зонтом. Единственный способ избежать ошибок такого рода – правильно справляться с контрфактами.

Это может показаться подножкой для теории принятия решений, но связи тут в равной степени обогащают и её, и устойчивое делегирование.

Контрфакты обращаются к вопросам доверия из-за замощения – нужды рассуждать о своих собственных будущих решениях, принимая решения сейчас. В то же время, доверие обращается к вопросам контрфактах из-за каузального Гудхарта.

Опять же, одно из крупных препятствий тут – реализуемость. Как мы замечали в нашем обсуждении встроенных моделях мира, даже если у вас есть верная обобщённая теория контрфактов, Байесовское обучение не особо гарантирует вам, что вы научитесь правильно выбирать действия без допущения реализуемости.

Наконец, есть состязательный Гудхарт, когда агенты активно манипулируют прокси-мерой, делая её хуже.

Эта категория – то, о чём чаще всего думают люди, когда интерпретируют замечание Гудхарта. И на первый взгляд, она кажется не особо связанной с нашими заботами. Мы хотим формально понять, как агенты могут доверять будущим версиям себя или помощникам, которых они создали. Что это имеет общего с состязательностью?

Краткий ответ такой: при поиске в большом и достаточно богатом пространстве в нём наверняка найдутся элементы, исполняющие состязательные стратегии. Понимание оптимизации в целом требует от нас понимать, как достаточно умные оптимизаторы могут избежать состязательного Гудхарта. (Мы ещё вернёмся к этому в обсуждении согласования подсистем.)

Состязательный вариант Закона Гудхарта ещё сложнее пронаблюдать на низких уровнях оптимизации, и из-за нежелания манипулировать до окончания времени тестирования, и из-за того, что противники, появляющиеся из собственной оптимизации системы, не появляются, пока эта оптимизация недостаточно сильна.

Эти четыре формы Закона Гудхарта работают очень по-разному, и, грубо говоря, они склонны появляться на последовательно более высоких уровнях силы оптимизации, начиная с регрессионного Гудхарта, и продолжая каузальным, затем экстремальным, затем состязательным. Так что будьте осторожны, и не считайте, что одолели закон Гудхарта, решив лишь некоторые из его форм.

Кроме противо-Гудхартовых мер, ещё, очевидно, неплохо было бы уметь точно определить, что мы хотим. Напомню, что все эти проблемы не всплывают, если система напрямую оптимизирует то, что нам надо, а не прокси.

К сожалению, это сложно. Так может ИИ-системы, которые мы создаём, могут нам с этим помочь?

Более обобщённо, может агент-наследник помочь своему предшественнику это решить? Может, он может использовать свои интеллектуальные преимущества, чтобы понять, что мы хотим?

AIXI обучается тому, что ему делать, с помощью сигнала вознаграждения, который он получает от окружения. Мы можем представить, что у людей есть кнопка, которую они нажимают, когда AIXI делает что-то, что им нравится.

Проблема в том, что AIXI применит свой интеллект к задаче получения контроля над кнопкой вознаграждения. Это – проблема вайрхединга.

Поведение такого вида потенциально очень сложно предвосхитить; система может обманчиво вести себя как предполагается во время обучения, планируя захватить контроль после развёртывания. Это называется «предательским поворотом».

Может, мы встроим кнопку вознаграждения внутрь агента, как чёрный ящик, испускающий вознаграждения, основываясь на том, что происходит. Ящик может сам по себе быть интеллектуальным субагентом, определяющим, какое вознаграждение хотели бы выдать люди. Коробка может даже защищать себя, выдавая наказания за действия, направленные на её модификацию.

В конце концов, всё же, если агент понимает ситуацию, он будет всё равно мотивирован захватить контроль.

Если агенту сказано добиваться высокого вывода от «кнопки» или «ящика», то он будет мотивирован их взломать. Однако, если вы проводите ожидаемые исходы планов через сам выдающий вознаграждение ящик, то планы его взломать будут оценены им самим, а он не будет считать эту идею привлекательной.

Дэниэл Дьюи называет такого агента макисимизатором наблюдаемой полезности. (Другие включали агентов наблюдаемой полезности в более широкое понятие обучения с подкреплением.)

Мне кажется весьма интересным, что вы можете много всего попробовать, чтобы предотвратить у агента обучения с подкреплением стремление к вайрхедингу, но агент будет против. Затем, вы переходите к агентам наблюдаемой полезности – и проблема исчезает.

Однако, у нас всё ещё есть задача определения $U$. Дэниэл Дьюи указывает, что агенты наблюдаемой полезности всё ещё могут использовать обучение, чтобы со временем аппроксимировать $U$; мы не можем просто считать $U$ чёрным ящиком. Агент обучения с подкреплением пытается научиться предсказать функцию вознаграждения, а агент наблюдаемой полезности оценивает функции полезности из определённого людьми априорного распределения для выучивания ценностей.

Но сложно определить процесс обучения, который не приведёт к иным проблемам. К примеру, если вы пытаетесь научиться тому, что хотят люди, как вы устойчиво идентифицируете в мире «людей»? Просто статистически приличное распознавание объектов опять может привести к вайрхедингу.

Даже если успешно решите эту задачу, агент может верно выяснить ценности человека, но всё же быть мотивирован изменить их, чтобы их было легче удовлетворить. К примеру, представьте, что есть наркотик, который модифицирует человеческие предпочтения, так что для человека будет иметь значение только его приём. Агент наблюдаемой полезности может быть мотивирован вводить людям этот наркотик, чтобы сделать свою работу проще. Это называется проблемой манипуляции людьми.

Всё, отмечаемое как истинное хранилище ценностей, взламывается. Будь это один из четырёх видов Гудхарта, или что-то пятое, тенденция прослеживается.

Так что вызов в создании стабильных указателей на то что мы ценим: непрямых ссылок на ценности, которые нельзя оптимизировать напрямую, чтобы не поощрять взлом хранилища ценностей.

Одно важное замечание было сделано Томом Эвериттом и пр. в «Обучении с Подкреплением Испорченным Каналом Вознаграждения»: то, как вы устраиваете петлю обратной связи, имеет огромное значение.

Они нарисовали такую картинку:

  • В Стандартном обучении с подкреплением обратная связь о ценности состояния исходит из самого состояния, так что испорченные состояния могут быть «самовозвеличивающими».
  • В Отсоединённом обучении с подкреплением обратная связь о ценности состояния исходит из какого-то другого состояния, что делает возможным выяснение правильных ценностей даже если часть обратной связи испорчена.

В некотором смысле, цель – верно направить изначального маленького агента в петле обратной связи. Однако, упомянутые ранее проблемы с необновимыми рассуждениями делают это сложным; оригинальный агент недостаточно много знает.

Один из способов работать с этим – через усиление интеллекта: попробовать превратить изначального агента в более способного с теми же ценностями, вместо того, чтобы создавать агента-наследника с нуля и пытаться справиться с загрузкой ценностей.

К примеру, Пол Кристиано предложил подход, в котором маленький агент симулируется много раз в большом дереве, которое может исполнять сложные вычисления, разбивая задачу на части.

Однако, это всё же довольно требовательно для маленького агента: он не просто должен знать, как разбивать задачи на более посильные части; он ещё должен знать, как делать это без возникновения злокачественных подвычислений.

К примеру, если он может использовать копии себя для получения больших вычислительных мощностей, он легко может пытаться использовать прямолинейный поиск решений, не натыкаясь на Закон Гудхарта.

Это – тема следующей части: согласование подсистем.


Перевод: 
Выменец Максим
Оцените качество перевода: 
Голосов пока нет
  • Короткая ссылка сюда: lesswrong.ru/3007