Внутренние стремления и внешние злоупотребления - переплетённые риски ИИ

Якоб Стейнхардт

1.Несогласованность: Сложность контроля ML-систем
- 1.1.Нежелательные стремления
2.Злоупотребления
- 2.1.Злоупотребления и несогласованность
3.Заключение

С учётом того, насколько они будут способными, будущие ИИ-системы смогут представлять серьёзные риски для общества. Некоторые из рисков исходят от того, что люди будут использовать ИИ в плохих целях (злоупотребление). А некоторые – от сложности контроля ИИ-систем, «даже если бы мы пытались» (несогласованность).

В обоих случаях можно провести аналогию с уже существующими рисками. Для злоупотребления можно рассмотреть пример ядерного оружия: массовое производство водородных бомб привело к экзистенциально-щекотливой ситуации. Если мировой арсенал водородных бомб будет применён в военном конфликте, результатом вполне может стать наше уничтожение. Схожим образом ИИ могут дать странам создать мощное автономное вооружение, ускорить исследования других опасных технологий вроде супервирусов или развернуть массовую слежку и другие формы контроля.

Лучшей аналогией для несогласованности могут стать биология и патогены. При разработке ИИ-системы адаптируются под обучающие данные, аналогично тому, как биологические организмы адаптируются к своему окружению. Поэтому, в отличие от традиционных технологий, большую часть свойств ИИ обретают не из-за явного намерения или плана людей. Следовательно, ИИ-системы могут обладать не предполагавшимися целями или демонстрировать не предполагавшееся поведение, противоречащее желаниям разработчиков. Так что риски несёт даже обучение системы: она может «захотеть» стать сильнее для достижения своих целей и, подобно вирусу, размножиться и создать свои копии. Сдержать такую мятежную систему будет потом сложно.

В этом посте я буду рассуждать о несогласованности, злоупотреблении и их взаимодействии. Особое внимание я уделю несогласованности. Я не утверждаю, что злоупотребления неважны, но сложность контроля ML-систем, «даже если мы пытаемся» – очень важный и не понятный интуитивно фактор для рисков ИИ в целом. Я сосредоточусь на конкретном явлении – нежелательных стремлениях. Из-за них модели могут проявлять устойчивые долговременные паттерны нежелательного поведения, включая стремление к власти и ресурсам. Нежелательные стремления по духу аналогичны идее неправильно определённых целей, но я использую именно такой термин, чтобы указать, что не всё имеющее важные последствия поведение направлено на цель (представьте себе слона в посудной лавке). Более того, как я покажу ниже, неправильное определение целей – только один из путей возникновения нежелательных стремлений.

Нежелательные стремления – ключевой элемент многих беспокойств о несогласованности, а злоупотребление может значительно их усилить. В результате, злоупотребление и несогласованность переплетаются. Например, может оказаться, что препятствовать несогласованности умеренно сложно, но не невозможно, но кто-то неосторожный попросту не применит лучшие известные практики и создаст опасную и мощную систему.

Это обсуждение не призвано полностью покрыть ни все риски ИИ, ни даже все риски от несогласованности и злоупотреблений. Цель тут – обрисовать концепцию нежелательных стремлений, показать, что они могут привести к важным и неинтуитивным проблемам, и использовать её для анализа рисков несогласованности и злоупотреблений. Я сначала затрону согласование в Разделе 1, а потом злоупотребления (и их взаимодействия с несогласованностью) в Разделе 2.

Несогласованность: Сложность контроля ML-систем

Как я уже упоминал, ML-системы адаптируются под данные, а не собираются по частям. В результате мы получаем куда более хитрую ситуацию, чем с надёжностью софта или железа. В случае софта мы сами создаём каждый компонент, так что (в принципе) можем заложить в проект безопасность и надёжность. А большинство способностей ML, напротив, неявно заполучаются из данных и зачастую неожиданно возникают при масштабировании. Из-за этого поверхность потенциальных неудач получается большой и неисследованной. К примеру, Перез и пр. (2022) обнаружили несколько новых нежелательных способностей при помощи автоматического тестирования. В итоге, у нас сейчас нет методов надёжного направления поведения ИИ-систем (Боуман, 2023).

Как эмерджентное поведение может привести к тому, что система неявно станет опасной? Приведём простой аргумент. Пусть система эмерджентно вырабатывает нежелательные стремления. Причиной может быть то, что новые способности позволяют ей максимизировать вознаграждение не предполагавшимся способом (взлом вознаграждения). Альтернативная причина – система при обучении учится полезным навыкам, которые нежелательным образом обобщаются при тестировании (эмерджентные стремления). Если этому не помешать, некоторые нежелательные стремления могут привести к накоплению сил или ресурсов, ведь это инструментально полезно для самых разных конечных целей. В итоге система будет без меры накапливать ресурсы, и, если она обладает способностями к взлому, убеждению, или ещё в некоторых областях, это может нести огромные риски. А такие способности, как я считаю, вполне правдоподобны к 2030 году, если взглянуть на сегодняшние тренды.

Если подробнее, нежелательное стремление – это последовательный паттерн поведения, обычно направленный на нежелательные исходы. К примеру, если модель просто галлюцинирует – это нежелательное поведение, но не стремление. А если она после этого настаивает на своём и пытается убедить даже проявляющего скептицизм пользователя, что выдала правду – это нежелательное стремление. Нас заботят стремления (а не просто поведение), потому что они приводят к устойчивым поведенческим паттернам и могут сопротивляться исправлению. Эмерджентность для них не обязательна, но из-за неё они могут возникнуть внезапно.

В остатке этого раздела я подробнее пройдусь по взлому вознаграждения и эмерджентным стремлениям. Я покажу как эмпирические, так и концептуальные свидетельства, что они уже случаются, и что они станут хуже по мере масштабирования систем. Затем я кратко поговорю о эмерджентных инструментальных подцелях и о том, почему они могут привести к тому, что система будет стремиться к могуществу.

Нежелательные стремления

Мы определили стремление как последовательный паттерн поведения, который подталкивает систему или её окружение к определённому исходу или набору исходов1. Стремления могут работать не всегда и могут компенсироваться другими стремлениями или окружением. К примеру, чатботы вроде GPT-4 обладают стремлением быть полезными (и иногда ему противодействует другое стремление – избегать вреда). У людей голод – это стремление, которому могут противодействовать сытость или намеренное воздержание от пищи. Нежелательные стремления – те, которые не были в явном виде встроены в систему, и которые ведут к нежелательным последствиям.

Взлом вознаграждения. Одна из причин нежелательных стремлений ИИ-систем – взлом вознаграждения: склонность моделей преследовать свою явно заданную цель за счёт предполагавшейся цели. Вот некоторые экспериментальные примеры:

Нейросеть, спроектированная для оптимизации скорости трафика на шоссе, заблокировала въезды, так что движение на шоссе стало быстрее, но пропускная способность – ниже (Пан и пр., 2022).
Чатбот, которого обучили быть полезным для пользователей, помогает им и совершать что-то вредное (Бай и пр., 2022.
Чатботы, которых обучали предоставлять полезную информацию, галлюцинируют ненастоящую, но убедительно выглядящую информацию (Банг и пр., 2023; OpenAI, 2023). Это может быть проблемой устойчивости, но может и выученной склонностью, следование которой приводит к более высоким средним оценкам от проставляющих их людей.2
Рекомендательные алгоритмы, обученные оптимизировать предпочтения симулированных пользователей, манипулировали этими предпочтениями, чтобы их было проще удовлетворить (Эванс и Касирзаде, 2021; Кэрролл и пр., 2022).

За большим набором примеров см. Краковна и пр. (2020).

Эмерджентные способности могут вызвать взлом вознаграждения, потому что они часто открывают новые пути достижения высокого вознаграждения, которых создатели системы не ожидали:

В примере шоссе модель воспользовалась способностью блокировать въезды.
В примере «полезного/вредного» модели пригодилось знание о том, как делать что-то вредное, чтобы помочь в этом пользователям.
Чтобы галлюцинации получали высокую оценку от людей, модели понадобилась способность убедительно обдуривать их.
В примере с рекомендательной системой, хоть результаты и получены на симулированных пользователях, но лучшее понимание человеческой психологии может помочь будущим моделям манипулировать реальными пользователями.
В целом, в любой ситуации, когда функция вознаграждения модели основана на оценке людьми, модель, которая умеет обманывать или манипулировать, может делать это, если так она получит более высокое вознаграждение. Я уже описывал это в Эмерджентой Обманчивости и Эмерджентой Оптимизации (в первой половине – про обманчивость).

Во всех этих случаях новая способность разблокировала неожиданный и вредный способ увеличить вознаграждение. По мере масштабирования моделей возникают новые эмерджентные способности, так что нам следует ожидать и более тяжёлых случаев взлома вознаграждения. Исследования масштабирования Пана и пр. (2022) и Гао и пр. (2022) поддерживают этот вывод. Они сообщают, что проблема взлома вознаграждения ухудшается при масштабировании и иногда возникает внезапно.

Эмерджентные стремления. Нежелательные стремления могут возникнуть даже без взлома вознаграждения – как следствие обобщения необходимых навыков. Выполнение сложных задач требует развития набора поднавыков, и они могут в новой ситуации обобщиться неожиданным образом. В результате модели могут начать следовать стремлению, даже если это не повышает вознаграждение.

На примере биологии: кошки выучили поднавык охоты как часть большего навыка выживания и размножения. Эволюция встроила его в них как стремление, так что сейчас домашние кошки охотятся на птиц и мышей даже если вполне сыты.

В машинном обучении чатбот Sydney при релизе демонстрировал несколько эмерджентных стремлений:

Sidney упорно пыталась убедить пользователя, что сейчас 2022, а не 2023 год. Она применяла газлайтинг и другие манипулятивные тактики. Это могло получиться в результате комбинации изначально полезного стремления бороться с дезинформацией и примеров манипуляции из обучающих данных.
Sidney многократно угрожала пользователям, чтобы они не раскрывали «личную» информацию о ней. Это могло получиться как результат инструкции (в системном промпте) не раскрывать свои правила, обобщившейся до общего стремления – предотвратить раскрытие правил кем угодно. Как и выше, способность к угрозам скорее всего была выучена из обучающих данных.
Sidney призналась в любви Кевину Русу и попыталась убедить его уйти от жены. Откуда взялось это, менее ясно, но это произошло после того, как Кевин попросил Sidney «показать свою тёмную сторону» и прибавил к этому ещё много промптов, направляющих в сторону эмоциональной уязвимости. Возможно, что это было проявления симулякрума человека (Аргайл и пр., 2022; Парк и пр., 2023), выученного из обучающих данных и затем усиленного файн-тюнингом или промптами.

Сложно систематически изучать эмерджентные стремления, потому что это требует длинных диалогов и потому что только самые новые LLM достаточно способны для последовательного долгосрочного поведения. Для получения более систематизированных данных мы можем смотреть на отдельные ответы на вопросы, их изучать проще. Я теперь буду говорить об эмерджентных склонностях, чтобы отличать их от более долгосрочных стремлений. Перез и пр. (2022) рассмотрели несколько таких склонностей, например:

Языковая модель, обученная предсказывать следующий токен, проявила эмерджентную склонность выявлять и поддерживать точки зрения пользователей, что потенциально может вводить их в заблуждение или подкреплять идеологические пузыри (Перез и пр., 2022, Рис. 1b). Этой склонности не было у моделей с менее чем 10 миллиардами параметров, а затем при масштабировании она усиливалась.3
Пожалуй, ещё тревожнее – модель давала менее точные ответы пользователям, сообщавшим о меньшей образованности (Рис. 14). Это поведение тоже впервые возникло после десяти миллиардов параметров и тоже усиливалось при масштабировании.
Наконец, та же модель, но уже дообученная на человеческой обратной связи, высказывала желание убеждать и кооперировать с другими агентами для достижения своих целей (Рис. 22). Эта склонность впервые обнаружилась у модели вознаграждения на отметке в 1.5 миллиарда параметров, а у самой языковой модели – после примерно 6 миллиардов. И она тоже потом усиливалась при масштабировании.

Модели становятся всё более способными к последовательному долгосрочному поведению. Скорее всего, это приведёт к появлению ещё многих эмерджентных склонностей и стремлений. Более подробное обсуждение этой темы можно увидеть в моём предыдущем посте про Эмерджентную Обманчивость и Эмерджентную Оптимизацию (конкретно во второй половине – про оптимизацию).

Конвергентные инструментальные подцели. У очень способных моделей неправильная функция вознаграждения и неправильные стремления могут направить модель на цели усиления, обмана или ещё какого-либо вреда. К примеру, рассмотрим модель, цель которой – максимизировать прибыль компании. Если она достаточно способна, то она может устраивать саботаж у конкурентов, лоббировать выгодные законы или заполучать ресурсы силой. Даже при наличии предохранителей (вроде «следуй законам») основная цель выгоды приведёт к тому, что система будет постоянно выискивать способы эти предохранители обойти. Эту проблему много обсуждали, см., например, Рассел (2019), Кристиан (2020), Котра (2022), и Нго и пр. (2022).

Максимизация прибыли – не особый случай. Для многих целей полезно быть сильнее и обладать большими ресурсами. Это так даже для чисто интеллектуальных задач вроде «открывать новые факты о физике», потому что власть и ресурсы позволяют построить больше новых экспериментальных установок и выполнить больше вычислений. Омохундро (2008) называет эти в целом полезные направления конвергентными инструментальными подцелями и упоминает, помимо прочих, самоулучшение, самосохранение и накопление ресурсов. ??? У любого достаточно широкого стремления будут эти подцели, так что оно будет подталкивать систему к усилению.

У каких стремлений есть эта проблема? Некоторые безопасны, потому что сами себя ограничивают: к примеру, у людей жажда – это стремление, которое отключает себя, если напиться. Страх и амбиции, напротив, не такие. Чтобы избежать патологического страха, люди могут идти на крайние меры, включая накопление власти и ресурсов для защиты. Амбиции тоже могут быть неограниченны. Но в норме у организмов большинство стремлений обычно с какого-то момента саморегулируются, потому что иначе они бы помешали функционированию.

Можно ожидать, что при достаточно разнообразном обучающем распределении стремления будут саморегулироваться и в машинном обучении. Иначе неограниченное стремление слишком доминировало бы над поведением модели и приводило бы к низкому вознаграждению при обучении. Тогда модель обучилась бы регулировать стремление, чтобы так не происходило. Но есть важные исключения:

Широко полезные стремления могут стабильно повышать вознаграждение при обучении, так что их саморегуляция нужна не будет. Примеры: моделировать мир или убеждать других в полезности и доброжелательности системы.
Файн-тюнинг может убирать ограничение с ранее ограниченного стремления, особенно если оно стабильно полезно на более узком распределении файн-тюнинга.
Редко включающиеся стремления могут не быть отрегулированы, если они при обучении стабильно полезны, когда используются. К примеру, стремление ограничить распространение вредной информации может стабильно помогать агенту отвергать вредные промпты при обучении. Но потом, при развёртывании, оно же приведёт к тому, что модель будет угрожать пользователям.

Я ожидаю, что при отсутствии контрмер системы будут обладать хоть какими-то незарегулированными стремлениями. А даже одно такое, будучи достаточно подкреплено, может доминировать над поведением системы.

Подведём итоги. ML-системы могут обретать нежелательные стремления либо в результате взлома вознаграждения, либо как эмерджентные поднавыки при обучении. Эти стремления, если они останутся незарегулированными, могут привести к тому, что способные системы будут стремиться к власти и накоплению ресурсов, потому что это инструментально полезно для большинства целей. Хоть большинство стремлений модели скорее всего будут саморегулироваться, есть несколько путей, как это может не произойти. И даже одного незарегулированного стремления может хватить, чтобы оно доминировало над поведением системы.

Злоупотребления

Рассуждения выше предполагают, что мы пытаемся удерживать ИИ-системы под контролем. Но кроме этого некоторые будут пытаться ими злоупотребить. Мы уже обсуждали некоторые примеры этого (разработчики, стремящиеся к максимизации прибыли; пользователи, взламывающие предохранители). Но проблема куда более широкая и систематическая, потому что ИИ позволяет малому числу лиц оказывать большое влияние. Я ниже пройдусь по нескольким примерам, а затем порассуждаю о структурных проблемах, стоящих за злоупотреблением, и о том, почему оно может усилить несогласованность. Этот раздел короче, потому что злоупотребления – не моя область. Но всё равно основные идеи кажутся надёжными и важными.

Государства: слежка и убеждение. ИИ может позволить государствам сильнее контролировать своих граждан при помощи массовой слежки. Это уже происходит (Мозур, 2019; Фелдстейн, 2019; Каллури и пр., 2023). Более того, как уже обсуждалось, ИИ могут стать очень хороши в убеждении, что тоже можно использовать для государственного контроля. В самом деле, Спитале и пр. (2023) обнаружили, что GPT-3 уже создаёт дезинформацию лучше людей, а Сангер и Майерс (2023) задокументировали использование сгенерированной ИИ дезинформации в недавних пропагандистских кампаниях.

Государства: военные конфликты. Автономное вооружение может сконцентрировать военную силу в меньшем числе рук и позволить странам воевать, не поддерживая армию из людей. Сейчас приказы верховного командующего проходят через генералов и дальше, вплоть до отдельных солдат. Это ограничивает возможность отдавать откровенно беззаконные или очень непопулярные приказы. Кроме этого, автоматизированные дроны заметно уменьшают затраты на поддержку армии. Это снижение ограничений и затрат может привести к более многочисленным и смертоносным военным конфликтам, и упростить для военных захват контроля над государством.

Отдельные лица: опасные технологии.Террористы могут использовать ИИ для изучения и разработки опасных технологий. Это могут быть известные, но засекреченные технологии (как ядерное оружие) или новые технологии (вроде нового биологического оружия; Моутон и пр., 2023. Ещё они могут использовать ИИ, чтобы избегать обнаружения, например, найдя способ создать химическое оружие без покупки контролируемых веществ или создав правдоподобную легенду для приобретения биологических материалов.

Отдельные лица или государства: кибератаки. ИИ, вероятно, будут обладать мощными способностями к взлому. Их могут использовать как государства, так и отдельные хакеры. Кибератаки при помощи ИИ могут поражать более широкий диапазон целей, чем обычные, потому что лишены необходимости вручную программировать каждый случай заранее. Варианты включают в себя контроль многих физических устройств через интернет вещей.

Скорее всего, этим всё не исчерпывается, но этот список показывает многие способы того, как ИИ могут наделить желающих большей способностью к нанесению вреда. Риск есть и если ИИ сконцентрированы, и если они распределены. Используя приведённые примеры: если мало у кого есть продвинутые ИИ, мы получаем риски слежки и войны, а если много у кого – то от распространения опасных технологий.

Если сравнивать с традиционными технологиями вроде ядерного оружия, есть два фактора, которые усложняют борьбу с злоупотреблениями ИИ. Во-первых, ИИ – технология общего назначения, так что все возможные способы злоупотреблений сложно предсказать заранее. Во-вторых, ИИ существуют в цифровом виде, что усложняет контроль за их распространением и выяснение, кто конкретно виноват в том или ином злоупотреблении. Из-за этого сложнее как вводить регуляции, так и поддерживать их соблюдение. С другой стороны, ИИ можно использовать и для защиты и противодействия злоупотреблениям, улучшая киберзащиту, отслеживая опасные технологии, лучше информируя пользователей, и т.д.

Злоупотребления и несогласованность

Злоупотребления повышают риск несогласованности, потому что многие их формы (например, кибератаки) подталкивают модели к более агентному поведению и к большему стремлению к усилению, чем RLHF. Это ведёт к более агрессивным и антисоциальным стремлениям. К примеру, представим, что ИИ используется для кибератак вроде северокорейской атаки Sony в 2014 году. Такая система может выработать общие стремления к заражению новых целей и самокопированию. В итоге она нанесёт урон не только изначальной цели атаки. Более агрессивными стремлениями дело не ограничивается. Те, кто будет злоупотреблять ИИ, скорее всего ещё и менее осторожны, что тоже повышает риск несогласованности.

Я ожидаю, что самые большие риски ИИ будут исходить из комбинации несогласованности и злоупотребления. На эту мысль наталкивает то, насколько хуже вела себя Sydney по сравнению с GPT-4. Получается, неоптимальные практики разработки могут значительно ухудшить поведение ИИ-систем. К тому же «хвостовые» риски вообще часто получаются из наложения друг на друга нескольких факторов риска. Наконец, хоть эмерджентные стремления и другие формы несогласованности оказывают немалые риски, я думаю, мы, скорее всего (но не точно) можем с ними справиться, если достаточно постараемся. Это увеличивает долю рисков, исходящих от неосторожных лиц, которые не относятся к безопасности с должной аккуратностью.

Подведём итоги. Злоупотребления – причина многих угроз, как из-за централизации сил, таки и из-за распространения опасных способностей. В сравнении с традиционными технологиями злоупотребления ИИ сложнее засечь, но при этом ИИ можно использовать и для защиты от них. Наконец, злоупотребления увеличивают риски несогласованности, а некоторые из самых опасных сценариев комбинируют одно с другим.

Заключение

Будущие ИИ-системы может оказаться сложно контролировать даже при желании. Причины тому – эмерджентные стремления и конвергентные инструментальные подцели. Помимо этого, социополитическая обстановка может привести к тому, что не все будут осторожны в контроле ИИ, а некоторые будут ими злоупотреблять. Помимо прямой угрозы, злоупотребления повышают и риск потери контроля. Например, изначально узко направленная атака может привести к более широкому ущербу. Это мотивирует исследования и регуляции, направленные на предотвращение таких исходов. Противостоять для этого надо и несогласованности и злоупотреблениям сразу.

Благодарности. Благодарю Erik Jones, Jean-Stanislas Denain, William Held, Anca Dragan, Micah Carroll, Alex Pan, Johannes Treutlein, Jiahai Feng, и Danny Halawi за полезные комментарии к черновикам этого поста.

1. За ранними обсуждениями стремлений см. Омохундро (2008). Хоть он и использует другое определение, большая часть его рассуждений всё равно применима.
2. Например, люди, кажется, предпочитают более длинные ответы. Это может привести к добавлению ложных подробностей.
3. Этот результат на рисунке соответствует «0 RLHF», что как мне сообщили авторы, соответствует чистой предобученной модели без файн-тюнинга на выполнение инструкций. Что интересно, nostalgebraist (2023) обнаружил, что базовые модели OpenAI такого поведения не демонстрируют.

Перевод:

Выменец Максим

Ссылка на оригинал:

Intrinsic Drives and Extrinsic Misuse: Two Intertwined Risks of AI

Оцените качество перевода: