1. В чём проблема и почему работать над ней сейчас?

Стивен Бирнс

1.1.1 Краткое содержание / Оглавление
2.1.2 Техническая задача безопасности СИИ
3.1.3 Подобный-мозгу СИИ
4.1.4 Что конкретно такое «СИИ»?
5.1.5 Какова вероятность, что мы однажды придём к подобному-мозгу СИИ?
6.1.6 Почему происшествия с СИИ – настолько серьёзное дело?
7.1.7 Почему думать о безопасности СИИ сейчас? Почему не подождать, пока мы не приблизимся к СИИ и не узнаем больше?
8.1.8 …А ещё это по-настоящему восхитительная задача!

1.1 Краткое содержание / Оглавление

Это первый из серии постов о технической задаче безопасности гипотетических будущих подобных-мозгу систем Сильного Искусственного Интеллекта (СИИ). Так что мой приоритет тут – сказать, что, чёрт побери, такое «техническая задача безопасности подобных-мозгу СИИ», что эти слова вообще значит, и с чего мне вообще беспокоиться.

Краткое содержание этого первого поста:

В Разделе 1.2 я определяю «техническую задачу безопасности СИИ», помещаю её в контекст других видов исследования безопасности (например, изобретения пассивно-безопасных проектов атомных электростанций), и связываю её с большой картиной того, что необходимо, чтобы реализовать потенциальные выгоды СИИ для человечества.
В Разделе 1.3 я определяю «подобные мозгу СИИ» как алгоритмы, имеющие на высоком уровне сходства с ключевыми чертами человеческого интеллекта, предположительно (хоть и не обязательно) в результате того, что будущие люди проведут реверс-инжиниринг этих аспектов человеческого мозга. Что в точности это значит будет яснее понятно из следующих постов. Я также упомяну контринтуитивную идею о том, что «подобный-мозгу СИИ» может (и, вероятно, будет) иметь радикально нечеловеческие мотивации. Я не объясню это полностью здесь, но вернусь к этой теме в конце Поста №3.
В Разделе 1.4 я определю термин «СИИ», как он будет использоваться в этой цепочке.
В Разделе 1.5 я рассмотрю вероятность того, что люди однажды создадут подобные мозгу СИИ, в противоположность каким-то другим видам СИИ (или просто не появлению СИИ вообще). Раздел включает семь популярных мнений по этому поводу, как от нейробиологов, так и от экспертов в ИИ / машинном обучении, и мои на них ответы.
В Разделе 1.6 я рассмотрю происшествия с СИИ, которые стоит ожидать, если мы не решим техническую задачу безопасности СИИ. Я приведу аргументы в пользу того, что такие происшествия действительно могут быть катастрофическими, в том числе приводящими к вымиранию людей. Эта тема просто минное поле замешательства и проблем коммуникации, и я построю свой обсуждение вокруг ответов на восемь частых возражений.
В Разделе 1.7 я рассмотрю более конкретный вопрос того, почему на следует думать о безопасности СИИ прямо сейчас. Всё же, с первого взгляда кажется, что есть хорошие поводы подождать, конкретно: (1) СИИ пока не существует, (2) СИИ будет существовать когда-нибудь в будущем, и (3) исследования безопасности СИИ будут проще, когда мы будем больше о нём знать и действительно иметь код СИИ для проведения тестов. В этом аргументе действительно что-то есть, но я считаю, что всё же очень много работы по безопасности можно и нужно сделать как можно скорее.
В Разделе 1.8 я обосную, что безопасность подобного-мозгу СИИ - это увлекательная, восхитительная и перспективная тема, даже если вы не принимаете идею, что она важна для будущего.

1.2 Техническая задача безопасности СИИ

СИИ – сокращение для «Сильного Искусственного Интеллекта» – я рассмотрю его определение ниже в Разделе 1.4. СИИ сейчас не существует, но в Разделе 1.7 я обосную, что мы можем и нам следует готовиться к появлению СИИ уже сегодня.

Часть, о которой я буду говорить в этой цепочке – это красный прямоугольник тут:

Конкретнее, мы будем представлять одну команду людей, пытающихся создать один СИИ, и стремиться, чтобы для них было возможным сделать это не вызвав какую-нибудь катастрофу, которую никто не хочет, с вышедшим из под контроля СИИ, самовоспроизводящимся через Интернет, или чем-то ещё (больше про это в Разделе 1.6).

Синие прямоугольники на диаграмме – это то, о чём я не буду говорить в этой цепочке. На самом деле, я вообще над ними не работаю – мне и так уже достаточно. Но я очень сильно одобряю, что над ними работают другие люди. Если ты, дорогой читатель, хочешь работать над ними, удачи тебе! Я болею за тебя! И вот несколько ссылок, чтобы начать: 1, 2, 3, 4, 5, 6, 7.

Возвращаясь к красному прямоугольнику. Это техническая задача, требующая технического решения. Никто не хочет катастрофических происшествий. И всё же катастрофы случаются! В самом деле, для людей совершенно возможно написать алгоритм, который делает что-то, что никто от него не хотел. Это происходит всё время! Мы можем назвать это «багом», когда это локальная проблема в коде, и мы можем назвать это «фундаментально порочным дизайном софта», когда это глобальная проблема. Позднее в цепочке я буду отстаивать позицию, что код СИИ может быть необычайно склонен к катастрофическим происшествиям, и что ставки очень высоки (см. Раздел 1.6 ниже и Пост №10).

Вот аналогия. Если вы строите атомную электростанцию, то никто не хочет вышедшей из-под контроля цепной реакции. Люди в Чернобыле точно не хотели! Но это всё равно произошло! Я извлекаю из этой аналогии несколько уроков:

Энрико Ферми изобрёл техническое решение для контроля атомных цепных реакций – аварийные регулирующие кассеты – до создания первой атомной цепной реакции. Правильно!! Вот это значит делать вещи в нужном порядке! По той же причине, я считаю, что нам следует стремиться иметь техническое решение для избегания катастрофических происшествий с СИИ наготове до того, как начинать программировать СИИ. На самом деле, я ниже буду отстаивать даже более сильное утверждение: знать (хотя бы в общих чертах) решение за 10 лет до СИИ ещё лучше; за 20 лет до СИИ – ещё лучше; и т.д. и т.д. Это заявление неочевидно, но я к нему ещё вернусь (Раздел 1.7).
Технические решения – это не всё-или-ничего. Некоторые снижают риск происшествий, не избавляясь от него полностью. Некоторые сложны и дороги, и подвершены ошибкам при реализации. В случае атомных реакций, аварийные регулирующие кассеты сильно снижают риск происшествий, но пассивно-безопасные реакторы снижают его ещё сильнее. Аналогично, я ожидаю, что техническая безопасность СИИ будет большой областью, в которой мы будем со временем разрабатывать всё более хорошие подходы, используя множество техник и множество слоёв защиты. По крайней мере, я надеюсь! Дальше в цепочке я заявлю, что прямо сейчас у нас нет никакого решения – даже примерного. У нас полно работы!
Синие прямоугольники (см. диаграмму выше) тоже существуют, и они совершенно необходимы, хоть и находятся за пределами рассмотрения этой конкретной серии статей. Причиной Чернобыля было не то, что никто не знал, как контролировать цепную атомную реакцию, а то, что лучшим практикам не следовали. В таком случае, мы все в пролёте! Всё же, хоть техническая сторона не может сама по себе решить проблему невыполнения, мы можем несколько с ней помочь, разрабатывая лучшие практики минимально дорогими и с максимальной защитой от дурака.

В *Ученике Чародея*, если я правильно его помню, программный инженер Микки Маус программирует СИИ с метлоподобным роботизированным телом. СИИ делает в точности то, что Микки *запрограммировал* его делать («наполнить ведро водой»), но это оказалось сильно отличающимся от того, что Микки от него *хотел* («наполнить ведро водой, не устроив беспорядок и не делая чего-то ещё, что я бы счёл проблематичным, и т.д.»). Наша цель – дать программным инженерам вроде Микки *возможность* избегать подобных инцидентов, снабдив их необходимыми для этого инструментами и знаниями. См. эту лекцию Нейта Соареса для глубокого обзора того, почему перед Микки ещё полно работы.

1.3 Подобный-мозгу СИИ

1.3.1 Обзор

Эта цепочка фокусируется на конкретном сценарии того, как будут выглядеть алгоритмы СИИ:

Красный прямоугольник – то, о чём я говорю тут. Синие прямоугольники находятся за пределами рассмотрения данной цепочки.

У вас может быть своё мнение о том, какие из этих категорий более или менее вероятны, или даже невозможны, или вообще имеет ли это разделение смысл. У меня оно тоже есть! Я опишу его позже (Раздел 1.5). Но его основа – что все три варианта в достаточной степени вероятны, чтобы нам следовало к ним готовиться. Так что хоть я лично и не делаю много работы в этих синих прямоугольниках, я уж точно рад, что это делают другие!

Вот аналогия. Если бы кто-то в 1870 пытался бы догадаться, как будет выглядеть будущий человеческий полёт…

«Что-то вроде птиц» было бы осмысленным предположением…
«Что-то вроде лучших нынешних летательных аппаратов» было бы тоже осмысленным предположением…
«Ни то, ни другое» было бы ещё одним осмысленным предположением!!

В этом конкретном воображаемом случае, все три предположения оказались бы частично верны, а частично ошибочны: братья Райт активно напрямую вдохновлялись большими парящими птицами, но отбросили махание крыльями. Они также использовали некоторые компоненты уже существовавших аппаратов (например, пропеллеры), но и прилично своих оригинальных деталей. Это всего один пример, но мне кажется, что он убедительный.

1.3.2 Что в точности такое «подобный-мозгу СИИ»?

Когда я говорю «подобный-мозгу СИИ», я имею в виду нечто конкретное. Это станет яснее в следующих постах, после того, как мы начнём погружаться в нейробиологию. Но вот, в общих чертах, о чём я:

Есть некоторые составляющие в человеческом мозгу и его окружении, которые приводят к тому, что у людей есть обобщённый интеллект (например, здравый смысл, способность что-то понимать, и т.д. – см. Раздел 1.4 ниже). В представляемом мной сценарии исследователи выясняют, что это за составляющие и как они работают, а потом пишут код ИИ, основываясь на этих же ключевых составляющих.

Для прояснения:

Я не ожидаю, что «подобный мозгу СИИ» будет включать каждую часть мозга и его окружения. К примеру, есть высокоинтеллектуальные люди, рождённые без чувства запаха, из чего можно сделать вывод, что цепи обработки ольфакторной информации не необходимы для СИИ. Есть и высокоинтеллектуальные парализованные с рождения люди, так что большинство спинного мозга и некоторые аспекты ощущения тела тоже не необходимы. Есть люди, рождённые без мозжечка, несмотря на это вполне попадающие в диапазон нормального интеллекта взрослого человека (способные работать, независимо жить и т.д. – способности, которые мы бы без сомнений назвали бы «СИИ»). Другие взрослые ходят на работу, будучи лишёнными целого полушария мозга, и т.д. Моё ожидание по умолчанию – что СИИ будет создан людьми, пытающимися создать СИИ, и они отбросят столько компонентов, сколько возможно, чтобы сделать свою работу проще. (Я не утверждаю, что это обязательно хорошая идея, только что этого я ожидаю по умолчанию. Подробнее об этом в Посте №3.)
- В частности, «подобный мозгу СИИ», о котором я говорю – это точно не тоже самое, что Полная Эмуляция Мозга.
Я не требую, чтобы «подобный-мозгу СИИ» напоминал человеческий мозг в низкоуровневых деталях, вроде импульсных нейронов, дендритов, и т.д., или их прямых симуляций. Если сходство есть только на высоком уровне, хорошо, это тут ни на что не повлияет.
Я не требую, чтобы «подобный мозгу СИИ» был изобретён процессом реверс-инжиниринга мозга. Если исследователи ИИ независимо переизобретут схожие с исполняемыми в мозгу алгоритмами – просто потому, что это хорошие идеи – что ж, я всё ещё буду считать результат подобным-мозгу.
Я не требую, чтобы «подобный мозгу СИИ» был спроектирован способом, напоминающим то, как был спроектирован мозг, т.е. эволюционным поиском. Даже наоборот: моё рабочее допущение – что он будет спроектирован людьми способом, сходным с типичными проектами машинного обучения сегодня: много написанного людьми кода (очень приблизительно аналогичного геному), часть которого определяет выведение и правила обновлений одного или нескольких алгоритмов обучения (соответствующих алгоритмам обучения мозга во время жизни). В коде могут быть какие-то пустые места, заполняемые поиском гиперпараметров или нейронной архитектуры и т.п. Потом код запускают, и обучающие алгоритмы постепенно создают большую сложно устроенную обученную модель, возможно, с триллионами настраиваемых параметров. Больше об этом в следующих двух постах и Посте №8.
Я не требую, чтобы «подобный-мозгу СИИ» имел самосознание. Есть этические причины беспокоиться об осознанности СИИ (больше об этом в Посте №12), но всё, что я говорю в этой цепочке, не зависит от этого. Машинное сознание – большая спорная тема, и я не хочу в неё тут погружаться. (Я написал немного об этом в другом месте.)

Я собираюсь много чего заявить про алгоритмы в основе человеческого интеллекта, и потом говорить о безопасном использовании алгоритмов с этими свойствами. Если наши будущие алгоритмы СИИ будут иметь эти свойства, то эта цепочка будет полезна, и я буду склонен называть такие алгоритмы «подобными мозгу». Мы увидим, что это в точности за свойства дальше.

1.3.3 «Подобный мозгу СИИ» (по моему определению) может (и очень возможно, что будет) иметь радикально нечеловеческие мотивации

Я собираюсь много говорить об этом в следующих статьях, но это настолько важно, что я хочу поднять эту тему немедленно.

Да, я знаю, это звучит странно.

Да, я знаю, вы думаете, что я чокнутый.

Но пожалуйста, прошу вас, сначала выслушайте. К моменту, когда мы доберёмся до Поста №3, тогда вы сможете решать, верить мне или нет.

На самом деле, я пойду дальше. Я отстаиваю позицию, что «радикально нечеловеческие мотивации» не просто возможны для подобного-мозгу СИИ, но и являются основным ожиданием от него. Я считаю, что это в целом плохо, и что для избегания этого нам следует проактивно приоритезировать конкретные направления исследований и разработок.

(Для ясности, «радикально нечеловеческие мотивации» - это не синоним «пугающих и опасных мотиваций». К сожалению, «пугающие и опасные мотивации» – тоже моё основное ожидание от подобного-мозгу СИИ!! Но это требует дальнейшей аргументации, и вам придётся подождать её до Поста №10.)

1.4 Что конкретно такое «СИИ»?

Частый источник замешательства – слово «Обобщённый» в «Обобщённом Искусственном Интеллекта» (по-русски устоялось словосочетание «Сильный Искусственный Интеллект», поэтому аббревиатуру я перевожу как СИИ, но вообще в оригинале он General – прим.пер.):

Слово «Обобщённый» ОЗНАЧАЕТ «не специфичный», как «Говоря обобщённо, в Бостоне жить хорошо.»
Слово «Обобщённый» НЕ ОЗНАЧАЕТ «универсальный», как в «Я нашёл обобщённое доказательство теоремы.»

СИИ не «обобщённый» во втором смысле. Это не штука, которая может мгновенно обнаружить любой паттерн и решить любую задачу. Люди тоже не могут! На самом деле, никакой алгоритм не может, потому что это фундаментально невозможно. Вместо этого, СИИ – это штука, которая, встретившись с сложной задачей, может быть способна легко её решить, но если нет, то может быть она способна создать инструмент для решения задачи, или найти умный способ обойти задачу, и т.д. В наших целях можно думать о СИИ как об алгоритме, который может «разобраться в вещах» и «понять, что происходит» и «сделать дело», в том числе с использованием языка, науки и технологии, способом, напоминающим то, как это может делать большинство взрослых людей, но не могут младенцы, шимпанзе и GPT-3. Конечно, алгоритмы СИИ вполне могут быть в чём-то слабее людей и сверхчеловеческими в чём-то другом.

В любом случае, эта цепочка – про подобные-мозгу алгоритмы. Эти алгоритмы по определению способны на совершенно любое интеллектуальное поведение, на которое способны люди, и потенциально на куда большее. Так что они уж точно достигают уровня СИИ. А вот сегодняшние ИИ-алгоритмы не являются СИИ. Так что где-то посередине есть неясная граница, отделяющая «СИИ» от «не СИИ». Где точно? Мой ответ: я не знаю, и мне всё равно. Проведение этой линии никогда не казалось мне полезным. Так что я не вернусь к этому в цепочке.

1.5 Какова вероятность, что мы однажды придём к подобному-мозгу СИИ?

Выше (Раздел 1.3.1) я предложил три категории алгоритмов СИИ: «подобные мозгу» (определённые выше), «прозаические» (т.е. подобные современным наиболее впечатляющим глубоким нейросетевым алгоритмам машинного обучения), и «другие».

Если ваше отношение – «Да, давайте изучать безопасность для всех трёх возможностей, просто на всякий случай!!» – как, по-моему, и надо – то, наверное, не так уж важно для принятия решений, как между этими возможностями распределена вероятность.

Но даже если это не важно, об этом интересно поговорить, так что почему нет, я просто быстро перескажу и отвечу на некоторые популярные известные мне мнения на этот счёт.

Мнение №1: «Я оспариваю предпосылку: человеческий мозг работает в целом по тем же принципам, что и нынешние популярные алгоритмы машинного обучения.»

В первую очередь, «нынешние популярные алгоритмы машинного обучения» – это зонтичный термин, включающий в себя много разных алгоритмов. К примеру, я едва ли вижу хоть какое-то пересечение у «безопасности подобного-GPT-3 СИИ» и «безопасности подобного-мозгу СИИ», но вижу у второго значительное пересечение с «безопасностью подобного-агенту-основанного-на-модели-обучения-с-подкреплением СИИ».
В любом случае, предполагая «подобный-мозгу СИИ» я могу делать некоторые предположения о его когнитивной архитектуре, внутренних отображениях, обучающих алгоритмах, и так далее.
- Некоторые из этих «ингредиентов подобного-мозгу СИИ» – повсеместные части нынешних популярных алгоритмов машинного обучения (например, алгоритмы обучения; распределённые отображения).
- Другие из этих «ингредиентов подобного-мозгу СИИ» – представлены (по отдельности) в некотором подмножестве нынешних популярных алгоритмов машинного обучения, но отсутствуют в других (например, обучение с подкреплением; предсказывающее обучение [так же известное как самообучение]; явное планирование).
- А ещё некоторые из этих «ингредиентов подобного-мозгу СИИ» кажутся в основном отсутствующими в нынешних самых популярных алгоритмах машинного обучения (например, способность формировать «мысли» [вроде «Я собираюсь пойти в магазин»], которые совмещают немедленные действия, краткосрочные и долгосрочные предсказания и гибкие иерархические планы в генеративной модели мира, поддерживающей причинные, гипотетические и метакогнитивные рассуждения).
Так что в этом смысле «подобный мозгу СИИ» – это конкретная штука, которая может случиться или не случиться независимо от «прозаического СИИ». Больше про «подобный мозгу СИИ», или, по крайней мере, его важные для безопасности аспекты, в следующих постах.

Мнение №2: «Подобный-мозгу СИИ» возможен, а Прозаический – нет. Этого просто не будет. Современное исследование машинного обучения – не путь к СИИ, точно так же, как забираться на дерево – не путь на Луну.»

Это кажется мне умеренно популярным мнением среди нейробиологов и когнитивных психологов. Видные защитники этой точки зрения – это, например, Гэри Маркус и Мелани Митчелл.
Один вопрос: если мы возьмём одну из нынешних самых популярных моделей машинного обучения, не будем добавлять никаких значительных озарений или изменений архитектуры, и просто масштабируем её на ещё больший размер, получим ли мы СИИ? Я присоединяюсь к этим нейробиологам в ожидании ответа «наверное, нет».
С другой стороны, даже если окажется, что глубокие нейросети не могут делать важные-для-интеллекта штуки X, Y и Z, то ну серьёзно, кто-нибудь наверное просто приклеит к глубоким нейросетям другие компоненты, которые делают X, Y и Z. И у нас останется лишь какой-то бессмысленный спор об определениях, о том, «действительно» ли это прозаический СИИ или нет.

Картинка отсюда

В любом случае, в этой цепочке я буду предполагать, что СИИ будет иметь некоторые алгоритмические черты (например, онлайновое обучение, разновидность основанного на модели планирования, и т.д. Больше об этом в следующих постах). Я буду предполагать это, потому что (1) эти черты – части человеческого интеллекта, (2) кажется, что они в нём не зря. Мои относящиеся к безопасности рассуждения будут полагаться на наличие этих черт. Могут ли алгоритмы с этими чертами быть реализованы в PyTorch на GPU? Ну, мне всё равно.

Мнение №3: «Прозаический СИИ появится настолько скоро, что другие программы исследований не имеют ни шанса.»

Некоторое подмножество людей в области машинного обучения считают так. Я нет. Или, по крайней мере, я был бы ужасно удивлён.
Я согласен, что ЕСЛИ прозаический СИИ, скажем, в пяти годах от нас, то нам почти точно не надо думать о подобном мозгу СИИ или о любой иной программе исследований. Я просто думаю, что это ну очень большое «если».

Мнение №4: «Мозги НАСТОЛЬКО сложные – и мы понимаем о них НАСТОЛЬКО мало после НАСТОЛЬКО больших усилий – что мы никак не можем получить подобный мозгу СИИ даже за следующие 100 лет.»

Это довольно популярное мнение, как внутри, так и снаружи нейробиологии. Я думаю, что оно крайне неверно, и буду спорить с ним в следующих двух постах.

Мнение №5: «Нейробиологи не пытаются изобрести СИИ, так что нам не следует ожидать, что они это сделают».

В этом есть какая-то правда, но в основном я не соглашусь. Для начала, некоторое количество ведущих вычислительных нейробиологов (команда нейробиологии DeepMind, Рэндалл О’Райли, Джефф Хокинс, Дайлип Джордж) на самом деле явно пытаются изобрести СИИ. Во-вторых, люди в области ИИ, включая влиятельных лидеров области, стараются иметь в виду нейробиологическую литературу и осваивать её идеи. И в любом случае, «понять мозговой алгоритм, важный для СИИ» – это часть изобретения подобного-мозгу СИИ, независимо от того, пытается ли это сделать человек, проводящий исследование.

Мнение №6: «Подобный-мозгу СИИ – не вполне имеющий смысл концепт; интеллект требует телесного воплощения, не просто мозга в банке (или на чипе).»

Дебаты о «телесном воплощении» в нейробиологии всё продолжаются. Я принимаю позицию где-то посередине. Я думаю, что будущие СИИ будут иметь какое-то пространство действий – вроде способности (виртуально) призвать конкретную книгу и открыть её на конкретном месте. Я не думаю, что обладание целым буквальным телом важно – к примеру, Кристофер Нолан (1965-2009) был парализован всю жизнь, что не помешало ему быть известным писателем и поэтом. Что важнее, я ожидаю, что какие бы аспекты телесного воплощения ни оказались важны для интеллекта, их можно будет легко встроить в подобный-мозгу СИИ, запущенный на кремниевом чипе. Тело всё же необходимо для интеллекта? ОК, ладно, давайте дадим СИИ виртуальное тело в виртуальном мире. Гормональные сигналы необходимы для интеллекта? ОК, хорошо, мы можем закодировать виртуальные гормональные сигналы. И т.д., и т.п.

Мнение №7: «Подобный-мозгу СИИ несовместим с обычными кремниевыми чипами, он потребует новой аппаратной платформы, основанной на импульсных нейронах, активных дендритах, и т.д. Нейроны попросту лучше в вычислениях, чем кремниевые чипы – просто посмотри на энергетическую эффективность и подобное.»

Я довольно плохо отношусь к этой позиции. Стандартные кремниевые чипы точно могут симулировать биологические нейроны – нейробиологи всё время это делают. По-видимому, они также могут исполнять «подобные мозгу алгоритмы», используя иные низкоуровневые операции, более подходящие для этого «железа» – так же как один и тот же код на C можно скомпилировать для разных наборов инструкций процессоров. Касательно же «нейроны попросту лучше», я вполне признаю, что человеческий мозг выполняет чертовски впечатляющее количество вычислений для своего крохотного объёма, массы и потребления энергии. Но это всё не жёсткие ограничения! Если СИИ на кремниевых чипах будет буквально в 10000 раз больше по объёму, массе и потреблению энергии, чем человеческий мозг сравнимой интеллектуальной мощности, то я не думаю, что кому-то было бы дело до меньшей эффективности – в частности, стоимость потребляемого им электричества была бы всё ещё меньше минимальной зарплаты в моём регионе!! И моя лучшая оценка такова, что покупка достаточного количества кремниевых чипов для осуществления того же объёма вычислений, что выполняет человеческий мозг за всю жизнь, скорее всего легко доступна, или будет легко доступна в следующем десятилетии, даже для маленьких компаний. Ключевая причина, по которой маленькие компании не создают СИИ сегодня – мы не знаем правильных алгоритмов.

Это просто быстрый обзор; каждое из этих мнений можно растянуть на отдельную статью – да что там, на целую книгу. Что касается меня, я оцениваю вероятность, что у нас будет достаточно подобный мозгу СИИ, чтобы эта цепочка была к месту, более чем в 50%. Но, конечно, кто знает.

1.6 Почему происшествия с СИИ – настолько серьёзное дело?

Две причины: (1) ставки высоки, и (2) задача трудна. Я буду говорить о (2) куда позже в цепочке (Посты №10-11). Давайте поговорим про (1).

И давайте поговорим конкретнее про возможность одной высокой ставки: риск человеческого вымирания. Это звучит немного дико, но послушайте.

Я оформлю это как ответы на популярные возражения:

Возражение №1: Единственный способ, которым вышедший из под контроля СИИ может привести к вымиранию людей – это если СИИ изобретёт сумасшедшее фантастическое супероружие, например, серую слизь. Как будто это вообще возможно!

О, если бы это было так! Но увы, я не думаю, что фантастическое супероружие невозможно. На самом деле, мне кажется, что где-то примерно на границе возможного для человеческого интеллекта использовать существующие технологии для вымирания человечества!

Подумайте об этом: для амбициозного харизматичного методичного человека уже по крайней мере недалеко от границ возможного устроить производство и высвобождение новой заразной болезни в 100 раз смертельнее, чем COVID-19. Чёрт побери, наверное, возможно выпустить 30 таких болезней одновременно! В то же время, я думаю, хотя бы на границах возможного для амбициозного умного харизматичного человека и найти способ манипулировать системами раннего оповещения о ядерном ударе (обмануть, взломать, подкупить или запугать операторов, и т.д.), устроив полноценную ядерную войну, убив миллиарды людей и посеяв в мире хаос. Это всего лишь два варианта, креативный читатель немедленно придумает ещё немало. В смысле, серьёзно, есть художественные книги с совершенно правдоподобными апокалиптическими безумноучёновскими сценариями, не согласно лишь моему мнению, но согласно экспертам в соответствующих областях.

Теперь, ну принято, вымирание выглядит очень сложнодостижимым требованием! Люди живут в куче разных мест, в том числе на маленьких тропических островах, которые были бы защищены и от ядерной зимы, и от эпидемий. Но тут мы вспомним о большой разнице между интеллектуальным агентом, вроде СИИ и неинтеллектуальным, вроде вируса. Оба могут самовоспроизводиться. Оба могут убить кучу людей. Но СИИ, в отличии от вируса, может взять управление военными дронами и перебить выживших!!

Так что я подозреваю, что мы всё ещё тут в основном из-за того, что самые амбициозные умные харизматичные методичные люди не пытаются всех убить, а не из-за того, что «убить всех» – задача, требующая сумасшедшего фантастического супероружия.

Как описано выше, один из возможных вариантов провала, которые я себе представляю, включает в себя вышедший из-под контроля СИИ, сочетающий интеллект (как минимум) человеческого уровня с радикально нечеловеческими мотивациями. Это была бы новая для мира ситуация, и она не кажется мне комфортной!

Вы можете возразить: То, что пошло не так в этом сценарии – это не вышедший из-под контроля СИИ, это факт того, что человечество слишком уязвимо! И моим ответом будет: Одно другому не мешает! Так что: да, нам совершенно точно следует делать человечество более устойчивым к искусственно созданным эпидемиям и уменьшать шансы атомной войны, и т.д., и т.п. Всё это – замечательные идеи, которые я сильно одобряю, и удачи вам, если вы над ними работаете. Но в то же время, нам следует ещё и очень много работать над тем, чтобы не создать вышедший из-под контроля самовоспроизводящийся подобный-человеку интеллект с радикально нечеловеческими мотивациями!

…О, и ещё одно: может быть, «сумасшедшее фантастическое супероружие вроде серой слизи» тоже возможно! Не знаю! Если так, нам надо быть ещё более осторожными!

Возражение №2: Единственный способ, которым происшествие с СИИ может привести к вымиранию людей – это если СИИ каким-то образом умнее всех людей вместе взятых.

Проблема тут в том, что «все люди вместе взятые» могут не знать, что участвуют в битве против СИИ. Могут знать, а могут и нет. Если СИИ вполне компетентен в секретности, то он скорее организует неожиданную атаку, чтобы никто не знал, что происходит, пока не станет слишком поздно. Или, если СИИ вполне компетентен в дезинформации и пропаганде, он предположительно сможет представить свои действия как несчастные случаи, или как (человеческие) враждебные действия. Может быть, все будут обвинять кого-то ещё, и никто не будет знать, что происходит.

Возражение №3: Единственный способ, которым происшествие с СИИ может привести к вымиранию людей – если СИИ намеренно дадут доступ к рычагам влияния, вроде кодов запуска ядерных ракет, контроля над социальными медиа, и т.д. Но мы также можем запустить код СИИ на всего одном сервере, и потом выключить его, если что-то пойдёт не так.

Проблема тут в том, что интеллектуальные агенты могут превратить «мало ресурсов» в «много ресурсов». Подумайте о Уоррене Баффетте или Адольфе Гитлере.

Интеллектуальные агенты могут зарабатывать деньги (легально или нет), зарабатывать доверие (заслуженное или нет) и получать доступ к другим компьютерам (приобретая серверное время или взламывая их). Последнее особенно важно, потому что СИИ – как вирус, но не как человек – потенциально может самовоспроизводиться. Самовоспроизведение – один из способов, которыми он может защитить себя от выключения, если он на это мотивирован. Другой способ – обмануть / ввести в заблуждение / склонить на свою сторону / подкупить / перехитрить того, кто контролирует кнопку выключения.

(Зерно истины тут в том, что если мы не уверены в мотивации и компетентности СИИ, то давать ему доступ к кодам запуска – очень плохая идея! Попытки ограничить власть и ресурсы СИИ не кажутся решением ни одной из сложнейших интересующих нас тут задач, но это всё ещё может быть как-то полезно, вроде «дополнительного слоя защиты». Так что я целиком за.)

Возражение №4: Хорошие СИИ могут остановить плохих вышедших-из-под-контроля СИИ.

Для начала, если мы не решим техническую проблему того, как направлять мотивацию СИИ и удерживать его под контролем (см. Посты №10-15), то может случиться так, что некоторое время хороших СИИ нет! Вместо этого, все СИИ будут вышедшими из-под контроля!

Вдобавок, вышедшие из-под контроля СИИ будут иметь асимметричные преимущества над хорошими СИИ – вроде возможности красть ресурсы, манипулировать людьми и социальными институтами ложью и дезинформацией; начинать войны, пандемии, блэкауты, выпускать серую слизь, и так далее; и отсутствия необходимости справляться с трудностями координации многих разных людей с разными убеждениями и целями. Больше на эту тему – тут.

Возражение №5: СИИ, который пытается всех убить – это очень конкретный вариант провала! Нет причин считать, что СИИ попробует это сделать. Это не то, что произойдёт как общий результат забагованного или плохо спроектированного софта СИИ. Такое произойдёт только, если кто-то намеренно вложит в СИИ злобные мотивации. На самом деле, забагованный или плохо спроектированный софт обычно делает, ну, ничего особенного! Я знаю кое-что про забагованный софт – я вообще-то написал один сегодня с утра. Единственное, что было убито – моя самооценка!

Тут есть зерно истины в том, что некоторые баги или недостатки проектирования в коде СИИ действительно приведут к тому, что получившийся софт не будет СИИ, не будет «интеллектуальным», и, возможно, даже не будет функционировать! Такие ошибки не считаются катастрофическими происшествиями, если только мы не оказались настолько глупы, что поставили этот софт управлять ядерным арсеналом. (См. «Возражение №3» выше.)

Однако, я утверждаю, что другие баги / ошибки проектирования будут потенциально вести к тому, что СИИ намеренно будет всех убивать, даже если его создатели – разумные люди с благородными скромными намерениями.

Почему? В области безопасности СИИ классический способ это обосновать – это триада из (1) «Тезиса Ортогональности», (2) «Закона Гудхарта» и (3) «Инструментальной Конвергенции». Вы можете ознакомиться с короткой версией этого тройного аргумента тут. Для длинной версии, читайте дальше: эта цепочка вся про детали мотивации подобного мозгу СИИ, и про то, что там может пойти не так.

Так что запомните эту мысль, мы проясним её к тому моменту, как пройдём Пост №10.

Возражение №6: Если создание СИИ кажется спусковым крючком катастрофических происшествий, то мы просто не будем этого делать, до тех пор, пока (если) не решим проблему.

Моя немедленная реакция: «Мы»? Кто, чёрт побери, такие «Мы»? Занимающееся ИИ сообщество состоит из многих тысяч способных исследователей, рассеянных по земному шару. Они расходятся друг с другом во мнениях практически о чём угодно. Никто не присматривает за тем, что они делают. Некоторые из них работают в секретных военных лабораториях. Так что я не думаю, что мы можем принять за данность, что «мы» не будем проводить разработки, которые вы и я считаем очевидно необдуманными и рискованными.

(К тому же, если от некоторых катастрофических происшествий нельзя восстановиться, то даже одно такое – слишком много.)

К слову, если предположить, что кто-то скажет мне «У меня есть экстраординарно амбициозный план, который потребует многих лет или десятилетий работы, но если мы преуспеем, то «Все на Земле ставят разработку СИИ на паузу, пока не будут решены задачи безопасности» будет возможной опцией в будущем» – ОК, конечно, я бы с готовностью выслушал. По крайней мере, этот человек говорит так, будто понимает масштаб вызова. Конечно, я ожидаю, что это скорее всего провалится. Но кто знает?

Возражение №7: Риски происшествий падают и падают уже на протяжении десятилетий. Ты не читал Стивена Пинкера? Имей веру!

Риски не решают сами себя. Они решаются, когда их решают люди. Самолёты обычно не падают. потому что люди сообразили, как избегать падения самолётов. Реакторы атомных электростанций обычно не плавятся потому, что люди сообразили, как избежать и этого.

Представьте, что я сказал: «Хорошие новости, уровень смертей в автокатастрофах сейчас ниже, чем когда либо! Так что теперь мы можем избавиться от ремней безопасности, зон деформации и дорожных знаков!». Вы бы ответили: «Нет!! Это безумие!! Ремни безопасности, зоны деформации и дорожные знаки – это и есть причина того, что смертей в автокатастрофах меньше, чем когда либо!»

Точно так же, если вы оптимистичны и считаете, что мы в итоге избежим происшествий с СИИ, то это не причина возражать против исследований безопасности СИИ.

Есть ещё кое-что, что надо держать в голове, прежде чем находить утешение в исторических данных о рисках технологических происшествий: пока технология неумолимо становится могущественнее, масштабы урона от технологических происшествий также неумолимо растут. Происшествие с атомной бомбой было бы хуже, чем с конвенционной. Биотеррорист с технологией 2022 года был бы способен нанести куда больший ущерб, чем биотеррорист с технологией 1980 года. Точно так же, раз ИИ системы в будущем станут значительно более мощными, нам следует ожидать, что масштаб урона от происшествий с ними так же будет расти. Так что исторические данные не обязательно правильно отображают будущее.

Возражение №8: Люди всё равно обречены. И вообще, никакой вид не живёт вечно.

Я много встречал вариации этого. И, ну да, я не могу доказать, что это неверно. Но мечехвосты вот существуют уже половину миллиарда лет. Давайте, люди, мы так можем! В любом случае, я без боя сдаваться не собираюсь!

А для людей, принимающих “далёкое” отчуждённое философско-кресельное отношение к человеческому вымиранию: если вас опустошила бы безвременная смерть вашего лучшего друга или любимого члена семьи… но вас не особенно заботит идея вышедшего из-под контроля СИИ, убивающего всех… эммм, я не уверен, что тут сказать. Может, вы не очень осторожно всё продумали?

1.7 Почему думать о безопасности СИИ сейчас? Почему не подождать, пока мы не приблизимся к СИИ и не узнаем больше?

Это частое возражение, и в нём действительно есть огромное зерно истины: в будущем, когда мы будем знать больше деталей об устройстве СИИ, будет много новой технической работы по безопасности, которую мы не можем сделать прямо сейчас.

Однако, есть работа по безопасности, которую мы можем сделать прямо сейчас. Просто продолжайте читать эту цепочку, если не верите мне!

Я хочу заявить, что работу по безопасности, которую мы можем делать прямо сейчас, действительно стоит делать прямо сейчас. Ждать куда хуже, даже если до СИИ ещё много десятилетий. Почему? Три причины:

Причина поторопиться №1: Ранние наводки по поводу безопасности могут влиять на решения при исследовании и разработке, включая «Дифференцированное Технологическое Развитие».

Самое важное, что уж точно есть более чем один способ запрограммировать алгоритм СИИ.

Очень рано в этом процессе мы принимаем высокоуровневые решения о пути к СИИ. Мы можем вести исследования и разработку к одной из многих вариаций «подобного мозгу СИИ», как определено здесь, или к полной эмуляции мозга, или к разным видам «прозаического СИИ» (Раздел 1.3.1), или к СИИ, основанному на запросах к графу базы данных, или к системе знания / дискуссии / рассуждения, мы можем использовать или не использовать различные интерфейсы мозг-компьютер, и так далее. Вероятно, не все из этих путей осуществимы, но тут уж точно есть более чем один путь к более чем одной возможной точке назначения. Нам надо выбрать по какому пути пойти. Чёрт, мы даже решаем, создавать ли СИИ вообще! (Однако, смотри «Возражение №6» выше)

На самом деле, мы принимаем эти решения уже сейчас. Мы принимаем их годами. И наша процедура принятия решений такова, что много отдельных людей по всему миру спрашивают себя: какое направление исследований и разработки лучше всего для меня прямо сейчас? Что принесёт мне работу / повышение / выгоду / высокоцитируемую публикацию прямо сейчас?

Получше была бы такая процедура принятия решений: какой СИИ мы хотим однажды создать? ОК! Давайте попробуем прийти к этому раньше всех плохих альтернатив.

Другими словами, те, кто выбирает направление исследований и разработки, основываясь на том, что выглядит интересным и многообещающим, так же как все остальные, не поменяют путь развития нашей технологии. Они просто проведут нас по тому же пути немного быстрее. Если мы думаем, что некоторые точки назначения лучше других, скажем, если мы пытаемся избежать будущих полностью неподконтрольных СИИ с радикально нечеловеческими мотивациями – то важно выбрать, какие исследования делать, чтобы стратегически ускорить то, что мы хотим, чтобы произошло. Этот принцип называется дифференцированное технологическое развитие – или, более обобщённо, дифференцированный интеллектуальный прогресс.

У меня есть мои собственные предварительные идеи о том, что следует ускорять, чтобы с подобным-мозгу СИИ всё получилось получше. (Я доберусь до этого подробно позже в цепочке.) Но главное, в чём я убеждён: «нам нужно отдельно ускорять работу над выяснением, какую работу следует отдельно ускорять»!! К примеру, будет ли подобный мозгу СИИ склонным к катастрофическим происшествиям или нет? Нам надо выяснить! Потому я и пишу эту цепочку!

Причина поторопиться №2: Мы не знаем, сколько времени займёт исследование безопасности.

Как будет описано куда подробнее в позднейших постах (особенно в Постах №10-15), сейчас неизвестно, как создать СИИ, который надёжно будет пытаться делать то, что мы от него хотим. Мы не знаем, как долго займёт выяснение этого (или доказательство невозможности!). Кажется важным начать сейчас.

Как будет описано позже в цепочке (особенно в Постах №10-15), Безопасность СИИ выглядит очень заковыристой технической задачей. Мы сейчас не знаем, как её решить – на самом деле, мы даже не знаем, решаема ли она. Так что кажется мудрым заточить свои карандаши и приняться за работу прямо сейчас, а не ждать до последнего. Концепт мема украден отсюда

Запомнившаяся аналогия Стюарта Расселла: представьте, что мы получили сообщение от инопланетян «Мы летим к вам на наших космических кораблях, и прибудем через 50 лет. Когда мы доберёмся, мы радикально преобразуем весь ваш мир до неузнавания.» И мы в самом деле видим их корабли в телескопы. Они становятся ближе с каждым годом. Что нам делать?

Если мы будем относиться к приближающемуся инопланетному вторжению так же, как мы на самом деле сейчас относимся к СИИ, то мы коллективно пожмём плечами и скажем «А, 50 лет, это ещё совсем нескоро. Нам не надо думать об этом сейчас! Если 100 человек на Земле пытаются подготовиться к надвигающемуся вторжению, этого достаточно. Может, слишком много! Знаете, спросите меня, этим 100 людям стоит перестать смотреть на звёзды и посмотреть на их собственное общество. Тогда они увидят, что РЕАЛЬНОЕ «надвигающееся инопланетное вторжение» – это кардиоваскулярные заболевания. Вот что убивает людей прямо сейчас!»

…Ну вы поняли. (Не язвлю, ничего такого.)

Причина поторопиться №3: Создание близкого к универсальному консенсуса о чём угодно может быть ужасающе медленным процессом.

Представим, что у меня есть по-настоящему хороший и корректный аргумент о том, что некая архитектура или некий подход к СИИ – просто ужасная идея – непоправимо небезопасная. Я публикую аргумент. Поверят ли мне немедленно и изменят ли направление исследований все вовлечённые в разработку СИИ, включая тех, кто вложил всю свою карьеру в этот подход? Вероятно, нет!!

Бывает, что такое происходит, особенно в зрелых областях вроде математики. Но у некоторых идей широкое (не говоря уж об универсальном) принятие занимает десятки лет: известные примеры включают эволюцию и тектонику плит. Доработка аргументов занимает время. Приведение в порядок свидетельств занимает время. Написание новых учебных пособий занимает время. И да, чтобы несогласные упрямцы умерли и их заменило следующее поколение, тоже занимает время.

Почему почти-универсальный консенсус настолько важен? См. Раздел 1.2 выше. Хорошие идеи о том, как создать СИИ, бесполезны, если люди, создающие СИИ, им не следуют. Если мы хотим добровольного сотрудничества, то нам надо, чтобы создатели СИИ поверили идеям. Если мы хотим принудительного сотрудничества, то нам надо, чтобы люди, обладающие политической властью, поверили идеям. И чтобы создатели СИИ поверили тоже, потому что идеальное принуждение – несбыточная мечта (особенно учитывая секретные лаборатории и т.п.).

1.8 …А ещё это по-настоящему восхитительная задача!

Эй, нейробиологи, слушайте. Некоторые из вас хотят лечить болезни. Хорошо. Давайте. Остальные, вы говорите, что хотите лечить болезни, в своих заявках на гранты, но ну серьёзно, это не ваша настоящая цель, все это знают. На самом деле вы тут, чтобы решать восхитительные нерешённые задачи. Ну, позвольте мне вам сказать, безопасность подобного-мозгу СИИ – это восхитительная нерешённая задача!

Это даже богатый источник озарений о нейробиологии! Когда я целыми днями думаю о штуках из безопасности СИИ (вайрхединг, принятие желаемого за действительное, основания символов, онтологический кризис, интерпретируемость, бла-бла-бла), я задаю вопросы, отличающиеся от обычно задаваемых большинством нейробиологов, а значит наталкиваюсь на другие идеи. (…Мне нравится так думать. Ну, читайте дальше, и сами для себя решите, есть ли в них что-то хорошее.)

Так что даже если я не убедил вас, что техническая задача безопасности СИИ супер-пупер-важная, всё равно читайте. Вы можете работать над ней, потому что она офигенная. ;-)

Перевод:

Выменец Максим

Ссылка на оригинал:

[Intro to brain-like-AGI safety] 1. What's the problem & Why work on it now?

Оцените качество перевода: