Вы здесь

Безопасность СИИ с чистого листа. Заключение

Ричард Нго

Давайте заново рассмотрим изначальный аргумент второго вида вместе с дополнительными заключениями и прояснениями из остального доклада.

  1. Мы создадим ИИ куда умнее людей; то есть, куда лучше людей использующих обобщённые когнитивные навыки для понимания мира.
  2. Эти СИИ будут автономными агентами, преследующими высокомасшабные цели, потому что направленность на цели подкрепляется во многих тренировочных окружениях, и потому что эти цели будут иногда обобщаться до больших масштабов.
  3. Эти цели по умолчанию будут несогласованы с тем, что мы хотим, потому что наши желания сложны и содержат много нюансов, а наши существующие инструменты для формирования целей ИИ неадекватны задаче.
  4. Разработка автономных несогласованных СИИ приведёт к тому, что они получат контроль над будущим человечества, с помощью своего сверхчеловеческого интеллекта, технологии и координации – в зависимости от скорости разработки ИИ, прозрачности ИИ-систем, того, насколько ограниченно их будут развёртывать, и того, как хорошо люди могут политически и экономически кооперироваться.

Лично я наиболее уверен в 1, потом в 4, потом в 3, потом в 2 (в каждом случае при условии выполнения предыдущих утверждений) – хотя я думаю, что у всех четырёх есть пространство для обоснованного несогласия. В частности, мои аргументы про цели СИИ могут слишком полагаться на антропоморфизм. Даже если это и так, всё же очень неясно, как рассуждать о поведении обобщённо интеллектуальных систем не прибегая к антропоморфизму. Главная причина, по которой мы ожидаем, что разработка СИИ будет важным событием – то, что история человечества показывает нам, насколько интеллект важен. Но к успеху людей привёл не только интеллект – ещё и наше неисчерпаемое стремление к выживанию и процветанию. Без этого мы бы никуда не добрались. Так что пытаясь предсказать влияние СИИ, мы не можем избежать мыслей о том, что заставит их выбирать одни типы интеллектуального поведения, а не другие – иными словами, мыслей о их мотивациях.

Заметим, впрочем, что аргумент второго вида и перечисленные мной сценарии не задумываются как исчерпывающее описание всех связанных с ИИ экзистенциальных рисков. Даже если аргумент второго вида окажется некорректным, ИИ всё равно скорее всего будет трансформативной технологией, и нам стоит попытаться минимизировать потенциальный вред. В дополнение к стандартным беспокойствам о неправильном использовании (к примеру, об использовании ИИ для разработки оружия), мы можем также волноваться о том, что рост способностей ИИ приведёт к нежелательным структурным изменениям. К примеру, они могут двинуть баланс щита и меча в кибербезопасности, или привести к большей централизации человеческого экономического влияния. Думаю, сценарий Кристиано «уход со всхлипом» тоже подпадает в эту категорию. Однако, было мало глубоких исследований того, какие структурные изменения могу привести к долговременному вреду, так что я не склонен особо полагаться на такие аргументы, пока они не будут более тщательно исследованы.

Напротив, мне кажется, сценарии захвата власти ИИ, на которых сосредоточен этот доклад, куда лучше разобраны – но опять же, как указано выше, имеют большие вопросительные знаки у некоторых ключевых предпосылок. Однако, важно различить вопрос того, насколько вероятно, что аргумент второго вида корректен, и вопрос того, насколько серьёзно нам нужно его рассматривать. Мне кажется удачной такая аналогия от Стюарта Расселла: предположим, мы получили сообщение из космоса о том, что инопланетяне прилетят на Землю в какой-то момент в следующие сто лет. Даже если подлинность сообщения вызывает сомнения, и мы не знаем, будут ли инопланетяне враждебны, мы (как вид) точно должны ожидать, что это будет событие огромного значения, если оно произойдёт, и направить много усилий на то, чтобы оно прошло хорошо. В случае появления СИИ, хоть и есть обоснованные сомнения по поводу того, на что это будет похоже, это в любом случае может быть самым важным событием из когда-либо произошедших. Уж по самой меньшей мере, нам стоит приложить серьёзные усилия для понимания рассмотренных тут аргументов, того, насколько они сильны, и что мы можем по этому поводу сделать.1

Спасибо за чтение, и ещё раз спасибо всем, кто помог мне улучшить этот доклад. Я не ожидаю, что все согласятся со всеми моими аргументами, но я думаю, что тут ещё много что можно обсудить и предоставить больше анализов и оценок ключевых идей в безопасности СИИ. Я сейчас рассматриваю такую работу как более ценную и более пренебрегаемую, чем техническое исследование безопасности СИИ. Потому я недавно сменил работу в полную ставку над последним на докторскую, которая позволит мне сосредоточиться на первой. Я восторженно смотрю на то, как наше коллективное понимание будущего СИИ продолжает развиваться.

  • 1. Однако, хочу явно предостеречь от заведения этого аргумента слишком далеко – например, заявляя, что работа над безопасностью ИИ должна быть глобальным приоритетом даже если вероятность связанной с ИИ катастрофы намного меньше 1%. Это заявление будет обманчивым, поскольку большинство исследователей в области безопасности считают, что риск намного выше; и также потому, что, если он на самом деле настолько низок, вероятно есть некоторые фундаментальные заблуждения в наших концепциях и аргументах, которые надо прояснить прежде, чем мы сможем приступить к настоящей работе объектного уровня, чтобы сделать ИИ безопаснее.

Перевод: 
Максим Выменец
Оцените качество перевода: 
Голосов пока нет
  • Короткая ссылка сюда: lesswrong.ru/1224