Встроенная Агентность. Встроенные модели мира

Абрам Демски, Скотт Гаррабрант

Агент, больший, чем своё окружение, может:

Удерживать у себя в голове точную модель окружения.
Продумывать последствия каждого потенциального курса действий.
Если он не знает окружение идеально, удерживать в голове все возможные варианты, каким окружение могло бы быть, как в случае с Байесовской неуверенностью.

Всё это – типичные понятия рациональной агентности.

Встроенный агент ничего из этого не может, по крайней мере, не напрямую.

Одна из сложностей в том, что раз агент – часть окружения, моделирование окружения во всех деталях требовало бы от агента моделирования себя во всех деталях, для чего модель себя внутри агента должна была бы быть настолько же «большой», как весь агент. Агент не может поместиться в своей собственной голове.

Недостаток чётких границ между агентом и окружением заставляет нас сталкиваться с парадоксами самореференции. Как будто отображение всего остального мира было недостаточно тяжело.

Встроенные Модели Мира должны отображать мир более подходящим для встроенных агентов способом. Задачи из этого кластера включают:

Проблема «реализуемости»/«зерна истины»: реальный мир не входит в пространство гипотез агента
Логическая неуверенность
Высокоуровневые модели
Многоуровневые модели
Онтологические кризисы
Натурализированная индукция, проблема того, что агент должен включить свою модель себя в свою модель мира
Антропные рассуждения о том, сколько существует копий себя

В Байесовском случае, когда неуверенность агента количественно описывается распределением вероятности по возможным мирам, типичное допущение – «реализуемость»: что настоящее, лежащее в основе наблюдений, окружение имеет хоть какую-то априорную вероятность.

В теории игр то же свойство описывается как изначальное обладание «зерном истины». Впрочем, следует заметить, что в теоретикоигровой обстановке есть дополнительные препятствия для получения этого свойства; так, что при обычном словоупотреблении «зерно истины» требовательно, а «реализуемость» подразумевается.

Реализуемость не вполне обязательна для того, чтобы Байесовские рассуждения имели смысл. Если вы думаете о наборе гипотез, как об «экспертах», а о нынешней апостериорной вероятности – как о том, насколько вы «доверяете» каждому эксперту, то обучение согласно Закону Байеса, $P(h|e)=/frac{P(e|h)P(h)}{P(e)}$, обеспечивает свойство ограниченных относительных потерь.

Конкретно, если вы используете априорное распределение π, то вы хуже в сравнении с каждым экспертом $h$ не более чем на $log(π(h))$, поскольку последовательности свидетельств $e$ вы присваиваете вероятность не меньше, чем $π(h)h(e)$. $π(h)$ – это ваше изначальное доверие эксперту $h$, а в каждом случае, когда он хоть немного более прав, чем вы, вы соответственно увеличиваете своё доверие образом, обеспечивающим, что вы присвоите эксперту вероятность 1, а, значит, скопируете его в точности до того, как потеряете относительно него более чем $log(π(h))$.

Априорное распределение AIXI основывается на распределении Соломонова. Оно определено как вывод универсальной машины Тьюринга (УМТ), чей ввод определяется бросками монетки.

Другими словами, скормим УМТ случайную программу. Обычно считается, что УМТ может симулировать детерминированные машины. Однако, в этом случае, исходный ввод может проинструктировать УМТ использовать остаток бесконечной ленты ввода как источник случайности, чтобы симулировать стохастическую машину Тьюринга.

Комбинируя это с предыдущей идеей о рассмотрении Байесовского обучения как о способе назначать «доверие» «экспертам» с условием ограниченных потерь, мы можем рассматривать распределение Соломонова как что-то вроде идеального алгоритма машинного обучения, который может научиться действовать как любой возможный алгоритм, неважно, насколько умный.

По этой причине, нам не следует считать, что AIXI обязательно «предполагает мир вычислимым», несмотря на то, что он рассуждает с помощью априорного распределения по вычислениям. Он получает ограниченные потери точности предсказаний в сравнении с любым вычислимым предсказателем. Скорее, следует считать, что AIXI предполагает, что вычислимы все возможные алгоритмы, а не мир.

Однако, отсутствие реализуемости может привести к проблемам, если хочется чего-то большего, чем точность предсказаний с ограниченными потерями:

Апострериорное распределение может колебаться вечно;
Вероятности могут быть не откалиброваны;
Оценки статистик вроде среднего могут быть произвольно плохи;
Оценки скрытых переменных могут быть произвольно плохи;
И определение каузальной структуры может не работать.

Так работает ли AIXI хорошо без допущения реализуемости? Мы не знаем. Несмотря на ограниченные потери предсказаний и без реализуемости, оптимальность результатов его действий требует дополнительного допущения реализуемости.

Во-первых, если окружение действительно выбирается из распределения Соломонова, то AIXI получает максимальное ожидаемое вознаграждение. Но это попросту тривиально, по сути – это определение AIXI.

Во-вторых, если мы модифицируем AIXI для совершения в какой-то степени рандомизированных действий – сэмплирование Томпсона – то получится асимптотически оптимальный результат для окружений, ведущих себя подобно любой стохастической машине Тьюринга.

Так что, в любом случае, реализуемость предполагалась чтобы всё доказать. (См. Ян Лейке, Непараметрическое Обобщённое Обучение с Подкреплением.)

Но беспокойство, на которое я указываю, это не «мир может быть невычислимым, так что мы не уверены, что AIXI будет работать хорошо»; это, скорее, просто иллюстрация. Беспокойство вызывает то, что AIXI подходит для определения интеллекта или рациональности лишь при конструировании агента, намного, намного большего чем окружение, которое он должен изучать и в котором действовать.

Лоран Орсо предоставляет способ рассуждать об этом в «Интеллекте, Встроенном в Пространство и Время». Однако, его подход определяет интеллект агента в терминах своего рода суперинтеллектуального создателя, который рассуждает о реальности снаружи, выбирая агента для помещения в окружение.

Встроенные агенты не обладают роскошью возможности выйти за пределы вселенной, чтобы подумать о том, как думать. Мы бы хотели, чтобы была теория рациональных убеждений для размещённых агентов, выдающая столь же сильные основания для рассуждений, как Байесианство выдаёт для дуалистичных агентов.

Представьте занимающегося теоретической информатикой человека, встрявшего в несогласие с программистом. Теоретик использует абстрактную модель. Программист возражает, что абстрактная модель – это не что-то, что вообще можно запустить, потому что она вычислительно недостижима. Теоретик отвечает, что суть не в том, чтобы её запустить. Скорее, суть в понимании некоего явления, которое будет относиться и к более достижимым штукам, которые может захотеться запустить.

Я упоминаю это, чтобы подчеркнуть, что моя точка зрения тут скорее как у теоретика. Я говорю про AIXI не чтобы заявить «AIXI – идеализация, которую нельзя запустить». Ответы на загадки, на которые я указываю, не требуют запуска. Я просто хочу понять некоторые явления.

Однако, иногда то, что делает теоретические модели менее достижимыми, ещё и делает их слишком отличающимися от явления, в котором мы заинтересованы.

То, как AIXI выигрывает игры, зависит от предположения, что мы можем совершать настоящие Баейесианские обновления по пространству гипотез, предположения, что мир находится в пространстве гипотез, и т.д. Так что это может нам что-то сказать об аспектах реалистичной агентности в случаях совершения приблизительно Байесовских обновлений по приблизительно-достаточно-хорошему пространству гипотез. Но встроенным агентам нужны не просто приблизительные решения этой задачи; им надо решать несколько других задач другого вида.

Одно из больших препятствий, с которыми надо иметь дело встроенной агентности – это самореференция.

Парадоксы самореференции, такие как парадокс лжеца, приводят к тому, что точное отображение мира в модели мира агента становится не только очень непрактичным, но и в некотором смысле невозможным.

Парадокс лжеца – о статусе утверждения «Это утверждение не истинно». Если оно истинно, то оно должно быть ложно; а если оно ложно, то оно должно быть истинно.

Трудности вытекают из попытки нарисовать карту территории, включающей саму карту.

Всё хорошо, когда мир для нас «замирает»; но раз карта – часть мира, разные карты создают разные миры.

Предположим, что наша цель – составить точную карту последнего участка дороги, которую пока не достроили. Предположим, что ещё мы знаем о том, что команда строителей увидит нашу карту, и продолжит строительство так, чтобы она оказалась неверна. Так мы попадаем в ситуацию в духе парадокса лжеца.

Проблемы такого рода становятся актуальны для принятия решений в теории игр. Простая игра в камень-ножницы-бумагу может привести к парадоксу лжеца, если игроки пытаются выиграть и могут предсказывать друг друга лучше, чем случайно.

Теория игр решает такие задачи с помощью теоретикоигрового равновесия. Но проблема в итоге возвращается в другом виде.

Я упоминал, что проблема реализуемости в ином виде появляется в контексте теории игр. В случае машинного обучения реализуемость – это потенциально нереалистичное допущение, которое всё же обычно можно принять без появления противоречий.

С другой стороны, в теории игр само допущение может быть непоследовательным. Это результат того, что игры часто приводят к парадоксам самореференции.

Так как агентов много, теория игр больше не может пользоваться удобством представления «агента» как чего-то большего, чем мир. Так что в теории игр приходится исследовать понятия рациональной агентности, способной совладать с большим миром.

К сожалению, это делают, разделяя мир на части-«агенты» и части-«не агенты», и обрабатывая их разными способами. Это почти настолько же плохо, как дуалистичная модель агентности.

В игре в камень-ножницы-бумагу парадокс лжеца разрешается постановкой условия, что каждый игрок играет каждый ход с вероятностью в 1/3. Если один игрок играет так, то второй, делая так, ничего не теряет. Теория игр называет этот способ введения вероятностной игры для предотвращения парадоксов равновесием Нэша.

Мы можем использовать равновесие Нэша для предотвращения того, чтобы допущение об агентах, правильно понимающих мир, в котором находятся, было непоследовательным. Однако, это работает просто через то, что мы говорим агентам о том, как выглядит мир. Что, если мы хотим смоделировать агентов, которые узнают о мире примерно как AIXI?

Задача зерна истины состоит в формализации осмысленного ограниченного априорного распределения вероятностей, которое позволило бы играющим в игры агентам присвоить какую-то положительную вероятность настоящему (вероятностному) поведению друг друга, не зная его в точности с самого начала.

До недавних пор известные решения задачи были весьма ограничены. «Рефлексивные Оракулы: Основания Классической Теории Игр» Беньи Фалленштайна, Джессики Тейлор и Пола Кристиано предоставляет очень общее решение. За деталями см. «Формальное решение Задачи Зерна Истины» Яна Лейке, Джессики Тейлор и Беньи Фалленштайна.

Вы можете подумать, что стохастические машины Тьюринга вполне могут отобразить равновесие Нэша.

Но если вы пытаетесь получить равновесие Нэша как результат рассуждений о других агентах, то наткнётесь на проблему. Если каждый агент моделирует вычисления другого и пытается запустить их, чтобы понять, что делает другой агент, то получается бесконечный цикл.

Есть некоторые вопросы, на которые машины Тьюринга просто не могут ответить – в частности, вопросы о поведении машин Тьюринга. Классический пример – проблема остановки.

Тьюринг изучал «машины с оракулом», чтобы понять, что произойдёт, если мы сможем отвечать на такие вопросы. Оракул подобен книге, содержащей некоторые ответы на вопросы, на которые мы не могли ответить раньше.

Но так мы получаем иерархию. Машины типа B могут ответить на вопросы о том, остановятся ли машины типа A, машины типа C – ответить на вопросы о типах A и B, и так далее, но никакая машина не может ответить на вопросы о её собственном типе.

Рефлексивные оракулы работают, закручивая вселенную обычных машин Тьюринга саму на себя, так что вместо бесконечной иерархии всё более сильных оракулов мы определяем машину с оракулом, служащую оракулом самой себе.

В норме это бы привело к противоречиям, но рефлексивные оракулы избегают этого, рандомизируя свой вывод в тех случаях, когда они наткнулись бы на парадоксы. Так что рефлексивные оракулы стохастичны, но более мощны, чем простые стохастические машины Тьюринга.

Вот как рефлексивные оракулы справляются с ранее упомянутой проблемой карты, которая сама по себе является частью территории: рандомизация.

Рефлексивные оракулы решают и ранее упомянутую проблему с теоретикоигровым понятием рациональности. Они позволяют рассуждать об агентах так же, как и об остальном окружении, а не трактовать их как фундаментально отдельный случай. Все они просто вычисления-с-доступом-к-оракулу.

Однако, модели рациональных агентов, основанных на рефлексивных оракулах, всё же имеют несколько серьёзных ограничений. Одно из них – что агенты должны обладать неограниченной вычислительной мощностью, прямо как AIXI, и также предполагается, что они знают все последствия своих собственных убеждений.

На самом деле, знание всех последствий своих убеждений – свойства, известное как логическое всеведенье – оказывается центральным для классической Байесовской рациональности.

Пока что я довольно наивно говорил о том, что агент обладает убеждённостью в гипотезах, и реальный мир принадлежит или не принадлежит пространству гипотез.

Не вполне ясно, что всё это значит.

В зависимости от того, как мы что определим, для агента вполне может оказаться возможным быть меньше мира, но всё же содержать верную модель мира – он может знать настоящую физику и стартовые условия, но быть способным вывести их последствия только очень приблизительно.

Люди уж точно привыкли жить с короткими путями и приближениями. Но как бы это ни было реалистично, это не сочетается с тем, что обычно подразумевается под знанием чего-то в Байесовском смысле. Байесианец знает последствия всех своих убеждений.

Неуверенность в последствиях своих убеждений – это логическая неуверенность. В этом случае агент может быть эмпирически уверен в уникальном математическом описании, указывающем на то, в какой он находится вселенной, будучи всё равно неуверенным логически в большинстве последствий этого описания

Моделирование логической неуверенности требует от нас обладания комбинированной теории логики (рассуждений о следствиях) и вероятности (степенях убеждённости).

Теории логики и вероятности – два великих достижения формализации рационального мышления. Логика предоставляет лучшие инструменты для мышления о самореференции, а вероятность – для мышления о принятии решений. Однако, вместе они работают не так хорошо, как можно подумать.

Они могут на первый взгляд показаться совместимыми, ведь теория вероятности – расширение булевой логики. Однако, первая теорема Гёделя о неполноте показывает, что любая достаточно богатая логическая система неполна: не только не справляется с определением истинности или ложности любого высказывания, но ещё и не имеет вычислимого расширения, которое справляется.

(См. больше иллюстраций того, какие проблемы это создаёт для теории вероятности в посте «Проиллюстрированный Незатролливаемый Математик».)

Это также относится к распределениям вероятностей: никакое вычислимое распределение не может присваивать вероятности способом, совместимым с достаточно богатой теорией. Это вынуждает нас выбирать между использованием невычислимого или несовместимой с теорией распределения.

Звучит как простой выбор, правда? Несовместимая теория по крайней мере вычислима, а мы, в конце концов, пытаемся выработать теорию логического не-всеведенья. Мы можем просто продолжать обновляться на основе доказанных нами фактов, что будет приводить нас ближе и ближе к совместимости.

К сожалению, это не заканчивается хорошо, по причинам, опять приводящим нас к реализуемости. Напомню, что не существует вычислимых распределений вероятностей, совместимых со всеми последствиями достаточно мощных теорий. Так что наше не-всеведущее априорное распределение не содержит ни одной верной гипотезы.

Это приводит к очень странному поведению, если мы вводим всё больше и больше математических убеждений в качестве условий. Убеждённости бешено колеблются вместо того, чтобы прийти к осмысленным оценкам.

Принятие Байесовского априорного распределения на математике и обновление его после доказательств кажется не особо ухватывающим математическую интуицию и эвристики – если мы не ограничим область и не составим осмысленные априорные оценки.

Вероятность подобна весам, гири на которых – миры. Наблюдение избавляется от некоторых возможных миров, сдвигая баланс убеждений.

Логика подобна дереву, растущему из зерна аксиом согласно правилам вывода. Для агентов в реальном мире процесс роста никогда не завершён; вы никогда не можете знать все следствия каждого убеждения.

Не зная, как их совместить, мы не можем охарактеризовать вероятностные рассуждения о математике. Но проблема «весов против дерева» ещё и означает, что мы не знаем, как работают обычные эмпирические рассуждения.

Байесовское тестирование гипотез требует, чтобы каждая гипотеза чётко объявляла, какие вероятности она присваивает каким наблюдениям. В таком случае вы знаете, насколько меняются шансы после наблюдения. Если мы не знаем следствий убеждения, то непонятно, насколько следует ориентироваться на его предсказания.

Это вроде незнания куда на весы вероятности положить гири. Мы можем попробовать положить гири на обе стороны, пока не докажем, что с одной из них гирю нужно убрать, но тогда убежденности колеблются вечно, а не приходят к чему-то полезному.

Это заставляет нас напрямую столкнуться с проблемой того, что мир больше, чем агент. Мы хотим сформулировать некое понятие ограниченно рациональных убеждений о следствиях, в которых мы не уверены; но любые вычислимые убеждения о логике должны оставить что-то за бортом, потому что дерево логического вывода вырастает больше любого контейнера.

Весы вероятности Байесианца сбалансированы в точности так, чтобы против него нельзя было сделать голландскую ставку – последовательность ставок, приводящую к гарантированному проигрышу. Но вы можете учесть все возможные голландские ставки, если вы знаете все следствия своих убеждений. Иначе кто-то исследовавший другие части дерева может вас поймать.

Но люди-математики, кажется, не натыкаются ни на какие особые сложности при рассуждениях о математической неуверенности, не более чем при эмпирической неуверенности. Так что характеризует хорошие рассуждения при математической неуверенности, если не иммунитет к плохим ставкам?

Один из вариантов ответа – ослабить понятие голландских ставок, позволяя только ставки, основанные на быстро вычисляемых частях дерева. Это одна из идей «Логической Индукции» Гаррабранта и пр., ранней попытки определить что-то вроде «индукции Соломонова, но для рассуждений, включающих математическую неуверенность».

Другое следствие того факта, что мир больше вас – что вам надо обладать способностью использовать высокоуровневые модели мира: модели, включающие вещи вроде столов и стульев.

Это связано с классической проблемой заземления символов; но раз нам нужен формальный анализ, увеличивающий наше доверие некой системе, интересующая нас модель имеет несколько иной вид. Это связано ещё и с прозрачностью и информированным присмотром: модели мира должны состоять из понимаемых частей.

Связанный вопрос – как высокоуровневые и низкоуровневые рассуждения связаны друг с другом и промежуточными уровнями: многоуровневые модели мира.

Стандартные вероятностные рассуждения не предоставляют особо хорошего подхода к этому. Получается что-то вроде того, что у вас есть разные Байесовские сети, описывающие мир с разным уровнем точности, и ограничения вычислительной мощности вынуждают вас в основном использовать менее точные, так что надо решить, как перепрыгивать на более точные в случае необходимости.

В дополнение к этому, модели на разных уровнях не идеально стыкуются, так что у вас есть проблема перевода между ними; а модели ещё и могут иметь между собой серьёзные противоречия. Это может быть нормально, ведь высокоуровневые модели и подразумеваются как приближения, или же это может сообщать о серьёзной проблеме в одной из моделей, требующей их пересмотра.

Это особенно интересно в случае онтологических кризисов, когда объекты, которые мы ценим, оказываются отсутствующими в «лучших» моделях мира.

Кажется справедливым сказать, что всё, что ценят люди, существует только в высокоуровневых моделях, которые с редукционистской точки зрения “менее реальны», чем атомы и кварки. Однако, поскольку наши ценности не определены на нижнем уровне, мы способны сохранять их даже тогда, когда наши знания нижнего уровня радикально меняются. (Мы также могли бы что-то сказать и о том, что происходит, когда радикально меняется верхний уровень.)

Другой критически важный аспект встроенных моделей мира – это что сам агент должен быть в модели, раз он хочет понять мир, а мир нельзя полностью отделить от самого агента. Это открывает дверь сложным проблемам самореференции и антропной теории принятия решений.

Натурализированная индукция – это проблема выучивания моделей мира, включающих в окружение самого агента. Это непросто, потому что (как сформулировал Каспар Остерхельд) между «ментальными штуками» и «физическими штуками» есть несовпадение типов.

AIXI рассматривает своё окружение так, как будто в нём есть слот, куда вписывается агент. Мы можем интуитивно рассуждать таким образом, но мы можем понять и физическую точку зрения, с которой это выглядит плохой моделью. Можно представить, что агент вместо этого представляет по отдельности: знание о себе, доступное для интроспекции; гипотезу о том, какова вселенная; и «соединительную гипотезу», связывающую одно с другим.

Есть интересные вопросы о том, как это может работать. Есть ещё и вопрос о том, правильная ли это вообще структура. Я точно не считаю, что так обучаются младенцы.

Томас Нагель сказал бы, что такой подход к проблеме включает «взгляды из ниоткуда»; каждая гипотеза рассматривает мир будто снаружи. Наверное, это странный способ.

Особый случай того, что агентам приходится рассуждать о себе – это то, что агентам приходится рассуждать о себе будущих.

Чтобы составлять долговременные планы, агентам нужно быть способными смоделировать, как они будут действовать в будущем, и иметь некоторое доверие своим будущим целям и способностям к рассуждению. Это включает доверие к обучившимся и выросшим будущим версиям себя.

При традиционном Байесовском подходе «обучение» подразумевает Байесовские обновления. Но, как мы заметили, Байесовские обновления требуют, чтобы агент изначально был достаточно большим, чтобы учитывать кучу вариантов, каким может быть мир, и обучаться, отвергая некоторые из них.

Встроенным агентам нужны обновления с ограниченными ресурсами и логической неуверенностью, которые так не работают.

К сожалению, Байесовские обновления – это главный известный нам способ думать о двигающемся во времени агенте как о едином, одном и том же. Оправдание Байесовских рассуждений через голландские ставки по сути заявляет, что только такие обновления обеспечивают, что действия агента в понедельник и во вторник не будут хоть немного друг другу мешать.

Встроенные агенты не-Байесовские. А не-Байесовские агенты склонны встревать в конфликты со своими будущими версиями.

Что приводит нас к следующему набору проблем: устойчивое делегирование.

Перевод:

Выменец Максим

Ссылка на оригинал:

Embedded World-Models

Оцените качество перевода: