Безопасность СИИ с чистого листа. Согласование

Ричард Нго

В предыдущем разделе я рассмотрел правдоподобность того, что агенты, полученные машинным обучением, выработают способность к поиску влияния по инструментальным причинам. Это не было бы проблемой, если бы они делали это только способами, согласованными с человеческими ценностями. В самом деле, многие из преимуществ, которые мы ожидаем получить от СИИ, потребуют у них обладания влиянием на мир. И по умолчанию, разработчики ИИ будут направлять свои усилия на создание агентов, которые будут делать то, что желают разработчики, а не обучатся быть непослушными. Однако, есть причины беспокоиться, что несмотря на усилия разработчиков, ИИ приобретут нежелательные конечные цели, которые приведут к конфликту с людьми.

Для начала, что вообще значит «согласованные с человеческими ценностями»? Вслед за Габриэлем и Кристиано, я проведу разделение между двумя типами интерпретаций. Минималистичный (он же узкий) подход сосредотачивается на избегании катастрофических последствий. Лучший пример – концепт согласования намерений Кристиано: «Когда я говорю, что ИИ A согласован с оператором H, я имею в виду: A пытается сделать то, что H от него хочет.» Хоть всегда и будут пограничные случаи определения намерений данного человека, это всё же даёт грубую завязанную на здравом смысле интерпретацию. Напротив, максималистский (он же амбициозный) подход пытается заставить ИИ принять или следовать конкретному всеохватывающему набору ценностей – вроде конкретной моральной теории, глобального демократического консенсуса, или мета-уровневой процедуры выбора между моральными теориями.

Я считаю, что определять согласование в максималистских терминах непрактично, поскольку это сводит воедино технические, этические и политические проблемы. Может нам и надо добиться прогресса во всех трёх, но добавление двух последних может значительно снизить ясность технических проблем. Так что с этого момента, когда я говорю о согласовании, я имею в виду только согласование намерений. Я также определю, что ИИ A несогласован с человеком H, если H хотел бы, чтобы A не делал того, что A пытается сделать (если бы H был осведомлён о намерениях A). Это подразумевает, что ИИ потенциально могут быть и не согласованными, и не несогласованными. С оператором – к примеру, если делают только то, что оператора не заботит. Очевидно, считается ли ИИ согласованным или несогласованным сильно зависит от конкретного оператора, но в этом докладе я сосредоточусь на ИИ, явно несогласованных с большинством людей.

Одно важное свойство этих определений: используя слово «пытается», они сосредотачиваются на намерениях ИИ, не на итоговых достигнутых результатах. Я думаю, это имеет смысл, потому что нам следует ожидать, что СИИ будут очень хорошо понимать мир, и что ключевой задачей безопасности будет правильная настройка их намерений. В частности, я хочу прояснить, что когда я говорю о несогласованном СИИ, типичный пример в моей голове – это не агент, который не слушается потому что неправильно понимает, что мы хотим, или слишком буквально понимает наши инструкции (что Бостром называл «извращённым воплощением»). Кажется вероятным, что СИИ будут по умолчанию очень хорошо понимать намерения наших инструкций, ведь они вероятно будут обучены на задачах, включающих людей и данные о людях – и понимание человеческого разума особенно важно для компетентности в таких задачах и во внешнем мире.1 Скорее, моё главное беспокойство в том, что СИИ будет понимать, что мы хотим, но ему просто будет всё равно, потому что приобретённые при обучении мотивации оказались не теми, какие нам хотелось.

Идея, что ИИ не будут автоматически приобретать правильные мотивации за счёт большего интеллекта – это следствие сформулированного Бостромом тезиса ортогональности, который гласит, что «более-менее любой уровень интеллекта в принципе может сочетаться с более-менее любой конечной целью». Для наших целей хватит и более слабой версии: просто что высокоинтеллектуальный агент может иметь крупномасштабные цели, несогласованные с большинством людей. Доказательство существования предоставляется высокофункциональными психопатами, которые понимают, что другие люди мотивированы моралью, и могут использовать этот факт для предсказания их действий и манипуляции, но всё же не мотивированы моралью сами.

Мы можем надеяться, что, осторожно выбирая задачи, на которых агент будет обучаться, мы можем предотвратить выработку этими агентами целей, конфликтующих с нашими, без необходимости прорывов в техническом исследовании безопасности. Почему это может не сработать? Существует разделение проблему внешней несогласованности и проблему внутренней несогласованности. Я объясню обе и предоставлю аргументы, почему они могут возникнуть. Я также рассмотрю некоторые ограничения такого подхода и альтернативные точки зрения на согласование.

Внешняя и внутренняя несогласованность: стандартное описание

Мы проводим машинное обучение системы для выполнения желаемого поведения, оптимизируя значение какой-то целевой функции – к примеру, функции вознаграждения в обучении с подкреплением. Проблема внешней несогласованности – это когда у нас не получилось реализовать целевую функцию, описывающую то поведение, которое мы на самом деле от системы хотим, не награждая также нежелательное поведение. Ключевое соображение за этим концептом – явно программировать выражающие все наши желания по поводу поведения СИИ целевые функции сложно. Нет простой метрики, которую нам бы хотелось, чтобы агенты максимизировали – скорее, желаемое поведение СИИ лучше формулируется в концептах вроде послушности, согласия, поддержки, морали и кооперации, которые мы в реалистичном окружении не можем точно определить. Хоть мы и можем определить для них цели-посредники, согласно Закону Гудхарта какое-нибудь нежелательное поведение будет очень хорошо оцениваться этими посредниками и потому будет подкрепляться у обучающихся на них ИИ. Даже сравнительно примитивные современные системы демонстрируют обходящее спецификации поведение, иногда довольно креативное и неожиданное, хотя концепты, которые мы пытаемся определить, гораздо проще.

Один из способов подойти к этой проблеме – включить человеческую обратную связь в целевую функцию, оценивающую поведение ИИ при обучении. Однако, тут есть как минимум три трудности. Первая – то, что предоставлять обратную связь от человека на все данные, нужные для обучения ИИ сложным задачам, до невозможности дорого. Это известно как проблема масштабируемого надзора; основной подход её решения – моделирование наград. Вторая – что для долгосрочных задач нам может понадобиться дать обратную связь прежде, чем у нас будет возможность увидеть все последствия действий агента. Даже в таких простых областях как го, уже зачастую очень сложно определить, насколько хорош был какой-нибудь ход, не увидев, как дальше пройдёт игра. А в больших областях может быть слишком много сложных последствий, чтобы их мог оценить один человек. Основной подход к этой проблеме – использование нескольких ИИ для рекурсивного разложения задачи оценивания, как Дебаты, Рекурсивное Моделирование Наград, и Итеративное Усиление. Через конструирование искусственных оценивателей, эти техники также пытаются подобраться и к третьей трудности с человеческой обратной связью: что людьми можно манипулировать, чтобы они интерпретировали поведение позитивнее, например, выдавая им обманчивые данные (как в случае робота-руки тут).

Даже если мы решим внешнюю несогласованность, определив «безопасную» целевую функцию, мы всё ещё сможем встретить провал внутренней согласованности: наши агенты могут выработать цели, отличающиеся от заданных целевой функцией. Это вероятно, когда обучающее окружение содержит постоянно полезные для получения высокой оценки данной целевой функции подцели, такие как сбор ресурсов и информации, или получение власти.2 Если агенты стабильно получают более высокое вознаграждение при достижении этих подцелей, то оптимизатор может отобрать агентов, преследующих эти подцели сами по себе. (Это один из путей, которым агенты могут выработать финальную цель набора власти, как упомянуто в начале раздела про Цели и Агентность.)

Это аналогично тому, что произошло во время эволюции людей; мы были «обучены» увеличивать свою генетическую приспособленность. В окружении наших предков, подцели вроде любви, счастья и социального статуса были полезны для достижения высокой совокупной генетической приспособленности, так что мы эволюционировали стремление к ним. Но сейчас, когда мы достаточно могущественны, чтобы изменять природный мир согласно нашим желаниям, есть значительные различия между поведением, которое максимизирует генетическую приспособленность (например, частое донорство спермы или яйцеклеток), и поведением, которое мы демонстрируем, преследуя эволюционировавшие у нас мотивации. Другой пример: предположим, мы вознаграждаем агента каждый раз, когда он корректно следует инструкции человека, так что ведущее к такому поведению мышление поощряется оптимизатором. Интуитивно, мы надеемся, что агент выработает цель подчинения людям. Но также вполне представимо, что послушное поведение агента руководствуется целью «не быть выключенным», если агент понимает, что непослушание приведёт к его выключению – в этом случае оптимизатор будет на самом деле вознаграждать цель выживания каждый раз, когда она будет приводить к следованию инструкциям. Два агента, каждый мотивированный одной из этих целей, могут вести себя очень похоже до тех пор, пока они не окажутся в положении, в котором можно не подчиниться, не будучи выключенным.3

Что определяет, какой из этих агентов на самом деле возникнет? Как я упоминал выше, один важный фактор – это наличие подцелей, которые стабильно приводят к вознаграждению при обучении. Другой – насколько просто и выгодно оптимизатору сделать агента мотивированным этими подцелями, а не обучающей целевой функцией. В случае людей, к примеру, концепт совокупной генетической приспособленности был очень сложным для встраивания эволюцией в мотивационную систему людей. И даже если бы наши предки каким-то образом выработали этот концепт, им было бы сложно придумать лучшие способы его достижения, чем и так вложенные в них эволюцией. Так что в окружении наших предков было сравнительно мало давления отбора на внутреннюю согласованность с эволюцией. В контексте обучения ИИ это значит, что сложность целей, которые мы пытаемся в него вложить, мешает два раза: она не только усложняет определение приемлемой целевой функции, но ещё и уменьшает вероятность того, что ИИ станет мотивированным предполагаемыми целями, даже если функция была правильной. Конечно, мы ожидаем, что потом ИИ станут достаточно интеллектуальными, чтобы точно понимать, какие цели мы предполагали им дать. Но к тому времени будет сложно убрать их уже существующие мотивации, и скорее всего они будут достаточно умны для попыток обманчивого поведения (как в гипотетическом примере из предыдущего абзаца).

Так как мы можем увериться во внутренней согласованности СИИ с намерениями человека? Эта область исследования пока что получала меньше внимания чем внешнее согласование, потому что это более хитрая задача. Один из потенциальных подходов включает добавление тренировочных примеров, в которых поведение агентов, мотивированных несогласованными целями, будет отличаться от согласованных агентов. Однако, проектировать и создавать такие тренировочные данные сейчас намного сложнее, чем массовое производство данных, например, процедурно-генерируемой симуляцией или поиском по сети. Частично это потому, что конкретные тренировочные данные в целом сложнее создавать, но есть ещё три дополнительных причины. Во-первых, по умолчанию мы просто не знаем, какие нежелательные мотивации возникают в наших агентах, на наказании каких нужно сосредоточиться. Техники интерпретируемости могут с этим помочь, но их разработка очень сложна (я рассмотрю это в следующем разделе). Во-вторых, наиболее вероятно приобретаемые агентами несогласованные мотивации – это те, которые наиболее устойчиво полезны. Например, особенно сложно спроектировать тренировочное окружение, в котором доступ к большему количеству информации приводит к более низкой награде. В-третьих, нас больше всего беспокоят агенты, имеющие несогласованные крупномасштабные цели. Но крупномасштабные цели сложнее всего настроить при обучении, неважно, в симуляции или в реальном мире. Так что чтобы подобраться к этим проблемам или обнаружить новые техники внутреннего согласования требуется ещё много работы.

Более холистический взгляд на согласованность

Внешнее согласование – это задача корректного оценивания поведения ИИ; внутреннее согласование – задача заставить цели ИИ соответствовать этим оценкам. В некоторой степени мы можем трактовать эти две задачи как отдельные; однако, я думаю, также важно иметь в виду, каким образом картина «согласование = внешнее согласование + внутреннее согласование» может быть неполна или обманчива. В частности, что вообще значит реализовать «безопасную» целевую функцию? Это функция, которую мы хотим, чтобы агент действительно максимизировал? Но хоть максимизация ожидаемой награды имеет смысл в формальных случаях вроде MDP или POMDP, она куда хуже определена при реализации целевой функции в реальном мире. Если есть последовательность действий, позволяющая агенту исказить канал получения вознаграждения, то «запровологоловиться», максимизировав этот канал, практически всегда будет стратегией для получения наивысшего сигнала вознаграждения в долгосрочной перспективе (даже если функция вознаграждения сильно наказывает действия, к этому ведущие).4 И если мы используем человеческую обратную связь, то, как уже обсуждалось, оптимально будет манипулировать надсмотрщиками, чтобы они выдали максимально позитивную оценку. (Существует предположение, что «миопическое» обучение может решить проблемы искажения и манипуляции, но тут я аргументировал, что оно лишь прячет их.)

Вторая причина, почему функция вознаграждения – это «дырявая абстракция» в том, что любые реальные агенты, которых мы можем обучить в обозримом будущем, будут очень, очень далеки от предельно оптимального поведения нетривиальных функций вознаграждения. В частности, они будут замечать вознаграждения лишь крохотной доли возможных исходов. Более того, если это основанные на обобщении агенты, то они зачастую будут подходить к выполнению новых задач с очень маленьким обучением конкретно на них. Так что поведение агента почти всегда будет в первую очередь зависеть не от настоящих значений функции вознаграждения, а скорее от того, как агент обобщил ранее собранные в других состояниях данные.5 Это, наверное, очевидно, но стоит особо отметить, потому что очень многие теоремы о сходимости алгоритмов обучения с подкреплением полагаются на рассмотрение всех состояний на бесконечном пределе, так что скажут нам очень мало про поведение в конечном промежутке времени.

Третья причина – исследователи уже сейчас модифицируют функции вознаграждения так, чтобы это меняло оптимальные пути действий, когда это кажется полезным. К примеру, мы добавляем условия формирования для появления неявного плана обучения, или бонусы за исследование, чтобы вытолкнуть агента из локального оптимума. Особенно относящийся к безопасности пример - нейросеть можно модифицировать так, чтобы её оценка зависела не только от вывода, но и от внутренних отображений. Это особенно полезно для оказания влияния на то, как нейросети обобщает – к примеру, можно заставить их игнорировать ложные корреляции в тренировочных данных. Но опять же, это усложняет интерпретацию функций вознаграждения как спецификаций желаемых исходов процесса принятия решений.

Как тогда нам про них думать? Ну, у нас есть набор доступных инструментов, чтобы удостовериться, что СИИ будет согласованным – мы можем менять используемые при обучении нейронные архитектуры, алгоритмы обучения с подкреплением, окружения, оптимизаторы, и т.д. Следует думать о нашей возможности определять целевую функцию как о самом мощном инструменте. Но мощном не потому, что она сама определяет мотивации агента, а скорее потому, что вытащенные из неё примеры оформляют мотивации и мышление агента.

С этой точки зрения, нам стоит меньше беспокоиться об абсолютных оптимумах нашей целевой функции, поскольку они никогда не проявятся при обучении (и поскольку они скорее всего будут включать в себя перехват вознаграждений). Вместо этого, стоит сосредоточиться на том, как целевые функции, в сочетании с другими частями настроек обучения, создают давление отбора в сторону агентов, думающих тем способом, которым нам хочется, и потому имеющих желательные мотивации в широком диапазоне обстоятельств.6 (См. этот пост Санджива Ароры для более математического оформления похожего заявления.)

Эта перспектива предоставляет нам другой способ взглянуть на аргументы из предыдущего раздела о высокоагентных ИИ. Дело обстоит не так, что ИИ обязательно станут думать в терминах крупномасштабных консеквенциалистских целей, и наш выбор целевой функции лишь определит, какие цели они будут максимизировать. Скорее, все когнитивные способности ИИ, включая системы мотивации, выработаются при обучении. Целевая функция (и остальные настройки обучения) определят пределы их агентности и их отношение к самой целевой функции! Это может позволить нам спроектировать планы обучения, создающие давление в сторону очень интеллектуальных и способных, но не очень агентных ИИ – таким образом предотвращая несогласованность, не решая ни внешнего, ни внутреннего согласования.

Но если не получится, то нам понадобится согласовать агентные СИИ. В дополнение к техникам, которые я описывал раньше, для этого надо точнее разобраться в концептах и целях, которыми обладают наши агенты. Я пессимистичен по поводу полезности математики в таких высокоуровневых вещах. Для упрощения доказательств математические подходы часто абстрагируются от аспектов задачи, которые нас на самом деле волнуют – делая эти доказательства куда менее ценными, чем они кажутся. Я думаю, что эта критика относится к подходу максимизации полезности, как уже обсуждалось. Другие примеры включают большинство доказательств о сходимости обучения с подкреплением и об устойчивости конкурентного обучения. Я думаю, что вместо этого, нам нужны принципы и подходы похожие на использующихся в когнитивных науках и эволюционной биологии. Я думаю, что категоризация внутренней несогласованности на верховую и низовую – важный пример такого прогресса; я также был бы рад увидеть подход, который позволит осмысленно говорить о взломе градиента7 и различии между мотивацией вознаграждающим сигналом и вознаграждающей функцией. Нам стоит называть функции вознаграждения как «правильные» или «неправильные» только в той степени, в какой они успешно или неуспешно толкают агента к приобретению желаемых мотиваций и избеганию проблем вроде перечисленных.

В последнем разделе я рассмотрю вопрос, сможет ли в случае нашего провала СИИ, имеющий цель увеличения своего влияния за счёт людей, преуспеть в этом.

  • 1. Конечно, то, что люди говорят, что они хотят, на что действия людей указывают, что они этого хотят, и что люди в тайне хотят, часто разные вещи. Но опять же, я не особо беспокоюсь о том, что суперинтеллект не сможет понять это разделение, если захочет.
  • 2. Заметим тонкое различие между существованием полезных подзадач и моими ранними рассуждениями о тезисе инструментальной конвергенции. Первое заявление – про то, что для конкретных задач, на которые мы обучаем СИИ, есть некие подцели, вознаграждаемые во время обучения. Второе – про то, что для большинства целей, которые может выработать СИИ, есть конкретные подцели, которые будут полезны для преследования этих целей после запуска. Второе включает первое только если конвергентные инструментальные подцели возможны и вознаграждаемы во время обучения. Самоулучшение – конвергентная инструментальная цель, но я не ожидаю, что она будет доступна в большинстве тренировочных окружений, а где будет, возможно будет наказываться.
  • 3. На самом деле эти два примера демонстрируют два разных типа провала внутреннего согласования: верховые и низовые меса-оптимизаторы. При обучении на функции вознаграждения R верховые меса-оптимизаторы выучивают цели, ведущие к высокой оценке по R, или, иными словами, каузально сверху по течению от R. К примеру, люди научились ценить поиск еды, потому что это ведёт к большему репродуктивному успеху. А низовые меса-оптимизаторы выучивают цели, находящиеся каузально внизу по течению от R: к примеру, выучивают цель выживания и понимают, что плохая оценка по R приведёт к выбрасыванию из оптимизационной процедуры. Это стимулирует их высоко оцениваться по R и скрывать свои истинные цели – исход, называемый обманчивой согласованностью. См. дальнейшую дискуссию здесь.
  • 4. Тут важно разделять между сообщением, кодом и каналом (как у Шеннона). В контексте обучения с подкреплением можно интерпретировать сообщение как цель, предполагаемую проектировщиками системы (например, выигрывать в Starcraft); код – это вещественные числа, соответствующие состояниям, с большими числами означающими лучшие состояния; и канал – то, что передаёт эти числа агенту. Пока что мы предполагали, что цель, которой обучается агент, основана на сообщении, которое его оптимизатор выводит из своей функции вознаграждения (хотя иногда так, что оно неправильно обобщается, потому что может быть сложно декодировать предполагаемое сообщение из конечного числа приведённых наград). Но также возможно, что агент научится беспокоиться о состоянии самого канала. Я рассматриваю боль у животных как пример этого: сообщение о полученных повреждениях; код в том, что большая боль означает большие повреждения (и тонкие моменты типы и интенсивности); и канал – нейроны, передающие эти сигналы в мозг. В некоторых случаях код меняется – к примеру, если получить удар током, но знать, что он безопасный. Если бы мы беспокоились только о сообщении, то мы бы игнорировали такие случаи, потому что они не выдают содержания о повреждениях тела. Но на самом деле мы всё равно пытаемся предотвратить такие сигналы, потому что не хотим чувствовать боль! Схожим образом, агент, обученный сигналом вознаграждения, может хотеть продолжать получать этот сигнал даже если он больше не несёт то же сообщение. По-другому это можно описать как разницу между интернализацией базовой цели и моделированием этой цели, как описано в четвёртом разделе Рисков Выученной Оптимизации в Продвинутых Системах Машинного Обучения.
  • 5. Ошибка представления об агентах обучения с подкреплением только как о максимизаторах награды (не имеющих других выученных инстинков и целей) имеет интересную параллель в истории изучения мышления животных, когда бихевиористы сосредотачивались на способах, которыми животные обучались новому поведению для увеличения вознаграждения, игнорируя внутренние аспекты их мышления.
  • 6. Полезный пример – альтруизм у людей. Хоть и нет консенсуса о его точных эволюционных механизмах, можно заметить, что наши альтруистические инстинкты простираются далеко за пределы прямолинейных случаев альтруизма по отношению к родственникам и напрямую взаимного альтруизма. Другими словами, некоторое взаимодействие между нашей эволюционной подгонкой и нашим разнообразным сложным окружением привело к возникновению довольно обобщённых альтруистических инстинктов, делающих людей «безопаснее» (с точки зрения других видов).
  • 7. См. пост Эвана Хубингера: «Взлом градиента – это термин, который я в последнее время использую, чтобы описать явление, когда обманчиво согласованный меса-оптимизатор может быть способен намеренно действовать так, чтобы заставить градиентный спуск обновить его в конкретную сторону.»
Перевод: 
Максим Выменец
Оцените качество перевода: 
Голосов пока нет