С учётом того, насколько они будут способными, будущие ИИ-системы смогут представлять серьёзные риски для общества. Некоторые из рисков исходят от того, что люди будут использовать ИИ в плохих целях (злоупотребление). А некоторые – от сложности контроля ИИ-систем, «даже если бы мы пытались» (несогласованность).
В обоих случаях можно провести аналогию с уже существующими рисками. Для злоупотребления можно рассмотреть пример ядерного оружия: массовое производство водородных бомб привело к экзистенциально-щекотливой ситуации. Если мировой арсенал водородных бомб будет применён в военном конфликте, результатом вполне может стать наше уничтожение. Схожим образом ИИ могут дать странам создать мощное автономное вооружение, ускорить исследования других опасных технологий вроде супервирусов или развернуть массовую слежку и другие формы контроля.
Лучшей аналогией для несогласованности могут стать биология и патогены. При разработке ИИ-системы адаптируются под обучающие данные, аналогично тому, как биологические организмы адаптируются к своему окружению. Поэтому, в отличие от традиционных технологий, большую часть свойств ИИ обретают не из-за явного намерения или плана людей. Следовательно, ИИ-системы могут обладать не предполагавшимися целями или демонстрировать не предполагавшееся поведение, противоречащее желаниям разработчиков. Так что риски несёт даже обучение системы: она может «захотеть» стать сильнее для достижения своих целей и, подобно вирусу, размножиться и создать свои копии. Сдержать такую мятежную систему будет потом сложно.
В этом посте я буду рассуждать о несогласованности, злоупотреблении и их взаимодействии. Особое внимание я уделю несогласованности. Я не утверждаю, что злоупотребления неважны, но сложность контроля ML-систем, «даже если мы пытаемся» – очень важный и не понятный интуитивно фактор для рисков ИИ в целом. Я сосредоточусь на конкретном явлении – нежелательных стремлениях. Из-за них модели могут проявлять устойчивые долговременные паттерны нежелательного поведения, включая стремление к власти и ресурсам. Нежелательные стремления по духу аналогичны идее неправильно определённых целей, но я использую именно такой термин, чтобы указать, что не всё имеющее важные последствия поведение направлено на цель (представьте себе слона в посудной лавке). Более того, как я покажу ниже, неправильное определение целей – только один из путей возникновения нежелательных стремлений.
Нежелательные стремления – ключевой элемент многих беспокойств о несогласованности, а злоупотребление может значительно их усилить. В результате, злоупотребление и несогласованность переплетаются. Например, может оказаться, что препятствовать несогласованности умеренно сложно, но не невозможно, но кто-то неосторожный попросту не применит лучшие известные практики и создаст опасную и мощную систему.
Это обсуждение не призвано полностью покрыть ни все риски ИИ, ни даже все риски от несогласованности и злоупотреблений. Цель тут – обрисовать концепцию нежелательных стремлений, показать, что они могут привести к важным и неинтуитивным проблемам, и использовать её для анализа рисков несогласованности и злоупотреблений. Я сначала затрону согласование в Разделе 1, а потом злоупотребления (и их взаимодействия с несогласованностью) в Разделе 2.
Как я уже упоминал, ML-системы адаптируются под данные, а не собираются по частям. В результате мы получаем куда более хитрую ситуацию, чем с надёжностью софта или железа. В случае софта мы сами создаём каждый компонент, так что (в принципе) можем заложить в проект безопасность и надёжность. А большинство способностей ML, напротив, неявно заполучаются из данных и зачастую неожиданно возникают при масштабировании. Из-за этого поверхность потенциальных неудач получается большой и неисследованной. К примеру, Перез и пр. (2022) обнаружили несколько новых нежелательных способностей при помощи автоматического тестирования. В итоге, у нас сейчас нет методов надёжного направления поведения ИИ-систем (Боуман, 2023).
Как эмерджентное поведение может привести к тому, что система неявно станет опасной? Приведём простой аргумент. Пусть система эмерджентно вырабатывает нежелательные стремления. Причиной может быть то, что новые способности позволяют ей максимизировать вознаграждение не предполагавшимся способом (взлом вознаграждения). Альтернативная причина – система при обучении учится полезным навыкам, которые нежелательным образом обобщаются при тестировании (эмерджентные стремления). Если этому не помешать, некоторые нежелательные стремления могут привести к накоплению сил или ресурсов, ведь это инструментально полезно для самых разных конечных целей. В итоге система будет без меры накапливать ресурсы, и, если она обладает способностями к взлому, убеждению, или ещё в некоторых областях, это может нести огромные риски. А такие способности, как я считаю, вполне правдоподобны к 2030 году, если взглянуть на сегодняшние тренды.
Если подробнее, нежелательное стремление – это последовательный паттерн поведения, обычно направленный на нежелательные исходы. К примеру, если модель просто галлюцинирует – это нежелательное поведение, но не стремление. А если она после этого настаивает на своём и пытается убедить даже проявляющего скептицизм пользователя, что выдала правду – это нежелательное стремление. Нас заботят стремления (а не просто поведение), потому что они приводят к устойчивым поведенческим паттернам и могут сопротивляться исправлению. Эмерджентность для них не обязательна, но из-за неё они могут возникнуть внезапно.
В остатке этого раздела я подробнее пройдусь по взлому вознаграждения и эмерджентным стремлениям. Я покажу как эмпирические, так и концептуальные свидетельства, что они уже случаются, и что они станут хуже по мере масштабирования систем. Затем я кратко поговорю о эмерджентных инструментальных подцелях и о том, почему они могут привести к тому, что система будет стремиться к могуществу.
Мы определили стремление как последовательный паттерн поведения, который подталкивает систему или её окружение к определённому исходу или набору исходов1. Стремления могут работать не всегда и могут компенсироваться другими стремлениями или окружением. К примеру, чатботы вроде GPT-4 обладают стремлением быть полезными (и иногда ему противодействует другое стремление – избегать вреда). У людей голод – это стремление, которому могут противодействовать сытость или намеренное воздержание от пищи. Нежелательные стремления – те, которые не были в явном виде встроены в систему, и которые ведут к нежелательным последствиям.
Взлом вознаграждения. Одна из причин нежелательных стремлений ИИ-систем – взлом вознаграждения: склонность моделей преследовать свою явно заданную цель за счёт предполагавшейся цели. Вот некоторые экспериментальные примеры:
За большим набором примеров см. Краковна и пр. (2020).
Эмерджентные способности могут вызвать взлом вознаграждения, потому что они часто открывают новые пути достижения высокого вознаграждения, которых создатели системы не ожидали:
Во всех этих случаях новая способность разблокировала неожиданный и вредный способ увеличить вознаграждение. По мере масштабирования моделей возникают новые эмерджентные способности, так что нам следует ожидать и более тяжёлых случаев взлома вознаграждения. Исследования масштабирования Пана и пр. (2022) и Гао и пр. (2022) поддерживают этот вывод. Они сообщают, что проблема взлома вознаграждения ухудшается при масштабировании и иногда возникает внезапно.
Эмерджентные стремления. Нежелательные стремления могут возникнуть даже без взлома вознаграждения – как следствие обобщения необходимых навыков. Выполнение сложных задач требует развития набора поднавыков, и они могут в новой ситуации обобщиться неожиданным образом. В результате модели могут начать следовать стремлению, даже если это не повышает вознаграждение.
На примере биологии: кошки выучили поднавык охоты как часть большего навыка выживания и размножения. Эволюция встроила его в них как стремление, так что сейчас домашние кошки охотятся на птиц и мышей даже если вполне сыты.
В машинном обучении чатбот Sydney при релизе демонстрировал несколько эмерджентных стремлений:
Сложно систематически изучать эмерджентные стремления, потому что это требует длинных диалогов и потому что только самые новые LLM достаточно способны для последовательного долгосрочного поведения. Для получения более систематизированных данных мы можем смотреть на отдельные ответы на вопросы, их изучать проще. Я теперь буду говорить об эмерджентных склонностях, чтобы отличать их от более долгосрочных стремлений. Перез и пр. (2022) рассмотрели несколько таких склонностей, например:
Модели становятся всё более способными к последовательному долгосрочному поведению. Скорее всего, это приведёт к появлению ещё многих эмерджентных склонностей и стремлений. Более подробное обсуждение этой темы можно увидеть в моём предыдущем посте про Эмерджентную Обманчивость и Эмерджентную Оптимизацию (конкретно во второй половине – про оптимизацию).
Конвергентные инструментальные подцели. У очень способных моделей неправильная функция вознаграждения и неправильные стремления могут направить модель на цели усиления, обмана или ещё какого-либо вреда. К примеру, рассмотрим модель, цель которой – максимизировать прибыль компании. Если она достаточно способна, то она может устраивать саботаж у конкурентов, лоббировать выгодные законы или заполучать ресурсы силой. Даже при наличии предохранителей (вроде «следуй законам») основная цель выгоды приведёт к тому, что система будет постоянно выискивать способы эти предохранители обойти. Эту проблему много обсуждали, см., например, Рассел (2019), Кристиан (2020), Котра (2022), и Нго и пр. (2022).
Максимизация прибыли – не особый случай. Для многих целей полезно быть сильнее и обладать большими ресурсами. Это так даже для чисто интеллектуальных задач вроде «открывать новые факты о физике», потому что власть и ресурсы позволяют построить больше новых экспериментальных установок и выполнить больше вычислений. Омохундро (2008) называет эти в целом полезные направления конвергентными инструментальными подцелями и упоминает, помимо прочих, самоулучшение, самосохранение и накопление ресурсов. ??? У любого достаточно широкого стремления будут эти подцели, так что оно будет подталкивать систему к усилению.
У каких стремлений есть эта проблема? Некоторые безопасны, потому что сами себя ограничивают: к примеру, у людей жажда – это стремление, которое отключает себя, если напиться. Страх и амбиции, напротив, не такие. Чтобы избежать патологического страха, люди могут идти на крайние меры, включая накопление власти и ресурсов для защиты. Амбиции тоже могут быть неограниченны. Но в норме у организмов большинство стремлений обычно с какого-то момента саморегулируются, потому что иначе они бы помешали функционированию.
Можно ожидать, что при достаточно разнообразном обучающем распределении стремления будут саморегулироваться и в машинном обучении. Иначе неограниченное стремление слишком доминировало бы над поведением модели и приводило бы к низкому вознаграждению при обучении. Тогда модель обучилась бы регулировать стремление, чтобы так не происходило. Но есть важные исключения:
Я ожидаю, что при отсутствии контрмер системы будут обладать хоть какими-то незарегулированными стремлениями. А даже одно такое, будучи достаточно подкреплено, может доминировать над поведением системы.
Подведём итоги. ML-системы могут обретать нежелательные стремления либо в результате взлома вознаграждения, либо как эмерджентные поднавыки при обучении. Эти стремления, если они останутся незарегулированными, могут привести к тому, что способные системы будут стремиться к власти и накоплению ресурсов, потому что это инструментально полезно для большинства целей. Хоть большинство стремлений модели скорее всего будут саморегулироваться, есть несколько путей, как это может не произойти. И даже одного незарегулированного стремления может хватить, чтобы оно доминировало над поведением системы.
Рассуждения выше предполагают, что мы пытаемся удерживать ИИ-системы под контролем. Но кроме этого некоторые будут пытаться ими злоупотребить. Мы уже обсуждали некоторые примеры этого (разработчики, стремящиеся к максимизации прибыли; пользователи, взламывающие предохранители). Но проблема куда более широкая и систематическая, потому что ИИ позволяет малому числу лиц оказывать большое влияние. Я ниже пройдусь по нескольким примерам, а затем порассуждаю о структурных проблемах, стоящих за злоупотреблением, и о том, почему оно может усилить несогласованность. Этот раздел короче, потому что злоупотребления – не моя область. Но всё равно основные идеи кажутся надёжными и важными.
Государства: слежка и убеждение. ИИ может позволить государствам сильнее контролировать своих граждан при помощи массовой слежки. Это уже происходит (Мозур, 2019; Фелдстейн, 2019; Каллури и пр., 2023). Более того, как уже обсуждалось, ИИ могут стать очень хороши в убеждении, что тоже можно использовать для государственного контроля. В самом деле, Спитале и пр. (2023) обнаружили, что GPT-3 уже создаёт дезинформацию лучше людей, а Сангер и Майерс (2023) задокументировали использование сгенерированной ИИ дезинформации в недавних пропагандистских кампаниях.
Государства: военные конфликты. Автономное вооружение может сконцентрировать военную силу в меньшем числе рук и позволить странам воевать, не поддерживая армию из людей. Сейчас приказы верховного командующего проходят через генералов и дальше, вплоть до отдельных солдат. Это ограничивает возможность отдавать откровенно беззаконные или очень непопулярные приказы. Кроме этого, автоматизированные дроны заметно уменьшают затраты на поддержку армии. Это снижение ограничений и затрат может привести к более многочисленным и смертоносным военным конфликтам, и упростить для военных захват контроля над государством.
Отдельные лица: опасные технологии.Террористы могут использовать ИИ для изучения и разработки опасных технологий. Это могут быть известные, но засекреченные технологии (как ядерное оружие) или новые технологии (вроде нового биологического оружия; Моутон и пр., 2023. Ещё они могут использовать ИИ, чтобы избегать обнаружения, например, найдя способ создать химическое оружие без покупки контролируемых веществ или создав правдоподобную легенду для приобретения биологических материалов.
Отдельные лица или государства: кибератаки. ИИ, вероятно, будут обладать мощными способностями к взлому. Их могут использовать как государства, так и отдельные хакеры. Кибератаки при помощи ИИ могут поражать более широкий диапазон целей, чем обычные, потому что лишены необходимости вручную программировать каждый случай заранее. Варианты включают в себя контроль многих физических устройств через интернет вещей.
Скорее всего, этим всё не исчерпывается, но этот список показывает многие способы того, как ИИ могут наделить желающих большей способностью к нанесению вреда. Риск есть и если ИИ сконцентрированы, и если они распределены. Используя приведённые примеры: если мало у кого есть продвинутые ИИ, мы получаем риски слежки и войны, а если много у кого – то от распространения опасных технологий.
Если сравнивать с традиционными технологиями вроде ядерного оружия, есть два фактора, которые усложняют борьбу с злоупотреблениями ИИ. Во-первых, ИИ – технология общего назначения, так что все возможные способы злоупотреблений сложно предсказать заранее. Во-вторых, ИИ существуют в цифровом виде, что усложняет контроль за их распространением и выяснение, кто конкретно виноват в том или ином злоупотреблении. Из-за этого сложнее как вводить регуляции, так и поддерживать их соблюдение. С другой стороны, ИИ можно использовать и для защиты и противодействия злоупотреблениям, улучшая киберзащиту, отслеживая опасные технологии, лучше информируя пользователей, и т.д.
Злоупотребления повышают риск несогласованности, потому что многие их формы (например, кибератаки) подталкивают модели к более агентному поведению и к большему стремлению к усилению, чем RLHF. Это ведёт к более агрессивным и антисоциальным стремлениям. К примеру, представим, что ИИ используется для кибератак вроде северокорейской атаки Sony в 2014 году. Такая система может выработать общие стремления к заражению новых целей и самокопированию. В итоге она нанесёт урон не только изначальной цели атаки. Более агрессивными стремлениями дело не ограничивается. Те, кто будет злоупотреблять ИИ, скорее всего ещё и менее осторожны, что тоже повышает риск несогласованности.
Я ожидаю, что самые большие риски ИИ будут исходить из комбинации несогласованности и злоупотребления. На эту мысль наталкивает то, насколько хуже вела себя Sydney по сравнению с GPT-4. Получается, неоптимальные практики разработки могут значительно ухудшить поведение ИИ-систем. К тому же «хвостовые» риски вообще часто получаются из наложения друг на друга нескольких факторов риска. Наконец, хоть эмерджентные стремления и другие формы несогласованности оказывают немалые риски, я думаю, мы, скорее всего (но не точно) можем с ними справиться, если достаточно постараемся. Это увеличивает долю рисков, исходящих от неосторожных лиц, которые не относятся к безопасности с должной аккуратностью.
Подведём итоги. Злоупотребления – причина многих угроз, как из-за централизации сил, таки и из-за распространения опасных способностей. В сравнении с традиционными технологиями злоупотребления ИИ сложнее засечь, но при этом ИИ можно использовать и для защиты от них. Наконец, злоупотребления увеличивают риски несогласованности, а некоторые из самых опасных сценариев комбинируют одно с другим.
Будущие ИИ-системы может оказаться сложно контролировать даже при желании. Причины тому – эмерджентные стремления и конвергентные инструментальные подцели. Помимо этого, социополитическая обстановка может привести к тому, что не все будут осторожны в контроле ИИ, а некоторые будут ими злоупотреблять. Помимо прямой угрозы, злоупотребления повышают и риск потери контроля. Например, изначально узко направленная атака может привести к более широкому ущербу. Это мотивирует исследования и регуляции, направленные на предотвращение таких исходов. Противостоять для этого надо и несогласованности и злоупотреблениям сразу.
Благодарности. Благодарю Erik Jones, Jean-Stanislas Denain, William Held, Anca Dragan, Micah Carroll, Alex Pan, Johannes Treutlein, Jiahai Feng, и Danny Halawi за полезные комментарии к черновикам этого поста.