Вы здесь

Главные вкладки

12. Два пути вперёд: «Контролируемый СИИ» и «СИИ с социальными инстинктами»

Стивен Бирнс

1.12.1 Краткое содержание / Оглавление
2.12.2 Определения
3.12.3 Моё предложение: На этой стадии нам надо работать над обоими путями
4.12.4 Различные комментарии и открытые вопросы
5.12.5 Вопрос жизненного опыта (обучающих данных)

12.1 Краткое содержание / Оглавление

Ранее в этой цепочке: Пост №1 определил и мотивировал «безопасность подобного-мозгу СИИ». Посты №2-№7 были сосредоточены в первую очередь на нейробиологии, они обрисовали общую картину обучения и мотивации в мозгу, а Посты №8-№9 озвучили некоторые следствия из этой картины, касающиеся разработки и свойств подобного-мозгу СИИ.

Дальше, Пост №10 обсуждал «задачу согласования» подобных-мозгу СИИ – т.е., как сделать СИИ с мотивациями, совместимыми с тем, что хотят его создатели – и почему это кажется очень сложной задачей. В Посте №11 обосновывалось, что нет никакого хитрого трюка, который позволил бы нам обойти задачу согласования. Так что нам надо решить задачу согласования, и Посты №12-№14 будут содержать некоторые предварительные мысли о том, как мы можем это сделать. В этом посте мы начнём с не-технического обзора двух крупных направлений исследований, которые могут привести нас к согласованному СИИ.

[Предупреждение: по сравнению с предыдущими постами цепочки, Посты №12-№14 будут (ещё?) менее хорошо обдуманы и будут содержать (ещё?) больше плохих идей и упущений, потому что мы подбираемся к переднему фронту того, о чём я думал в последнее время.]

Содержание:

Раздел 12.2 определит два широких пути к согласованному СИИ.
- В пути «Контролируемого СИИ» мы пытаемся более-менее напрямую манипулировать тем, что СИИ пытается делать.
- В пути «СИИ с Социальными Инстинктами» первый шаг – реверс-инжиниринг некоторых «встроенных стремлений» человеческой Направляющей Подсистемы (гипоталамус и мозговой ствол), особенно лежащих в основе человеческой социальной и моральной интуиции. Затем, мы, скорее всего, несколько изменяем их, а потом устанавливаем эти «встроенные стремления» в наши СИИ.
Раздел 12.3 аргументирует, что на этой стадии нам следует работать над обоими путями, в том числе потому, что они не взаимоисключающи.
Раздел 12.4 проходится по различным комментариям, соображениям и открытым вопросам, связанным с этими путями, включая осуществимость, конкурентоспособность, этичность, и так далее.
Раздел 12.5 говорит о «жизненном опыте» («обучающих данных»), который особенно важен для СИИ с социальными инстинктами. Как пример, я обсужу возможно-соблазнительную-но-ошибочную идею, что всё, что нам надо для безопасности СИИ – это вырастить СИИ в любящей семье.

Тизер следующих постов: Следующий пост (№13) погрузится в ключевой аспект пути «СИИ с социальными инстинктами», а конкретно – в то, как социальные инстинкты, возможно, всторены в человеческий мозг. В Посте №14 я переключусь на путь «контролируемого СИИ», и порассуждаю о возможных идеях и подходах к нему. Пост №15 завершит серию открытыми вопросами и тем, как включиться в область.

12.2 Определения

Сейчас я вижу два широких (возможно перекрывающихся) потенциальных пути к успеху в сценарии подобного-мозгу СИИ:

Слева: на пути «контролируемых СИИ» у нас есть конкретная идея того, что мы хотим, чтобы СИИ пытался сделать, и мы конструируем СИИ соответственно (включая подходящий выбор функции вознаграждения, интерпретируемость, или другие техники, которые будут обсуждены в Посте №14). Большинство существующих предлагаемых историй безопасности СИИ попадают в эту широкую категорию, включая амбициозное изучение ценностей, когерентную экстраполированную волю (CEV), исправимые «помогающие» СИИ-ассистенты, ориентированные на задачу СИИ, и так далее. Справа: на пути «СИИ с социальными инстинктами» наша уверенность в СИИ берётся не из наших знаний его конкретных целей и мотиваций, но, скорее, из встроенных стремлений, которые мы ему дали, и которые основаны на тех встроенных стремлениях, из-за которых люди (иногда) поступают альтруистично.

Вот иной взгляд на это разделение:[1]

На пути «контролируемых СИИ» мы очень детально думаем о целях и мотивациях СИИ, и у нас есть некая идея того, какими они должны быть («сделать мир лучшим местом», или «понять мои глубочайшие ценности и продвигать их», или «спроектировать лучшую солнечную батарею без катастрофических побочных эффектов», или «делать, что я попрошу делать», и т.д.).

На пути «СИИ с социальными инстинктами» наша уверенность в СИИ берётся не из нашего знания его конкретных (на объектном уровне) целей и мотиваций, но, скорее, из нашего знания процесса, управляющего этими целями и мотивациями. В частности, на этом пути мы бы провели реверс-инжиниринг совокупности человеческих социальных инстинктов, т.е. алгоритмов в Направляющей Подсистеме (гипоталамус и мозговой ствол) человека, лежащих в основе нашей моральной и социальной интуиции, и поместили бы эти инстинкты в СИИ. (Предположительно, мы бы по возможности сначала модифицировали их в «лучшую» с нашей точки зрения сторону, например, нам, наверное, не хочется помещать в СИИ инстинкты, связанные с завистью, чувством собственного достоинства, стремлением к высокому статусу, и т.д.) Такие СИИ могут быть экономически полезными (как сотрудники, ассистенты, начальники, изобретатели, исследователи) таким же образом, как люди.

12.3 Моё предложение: На этой стадии нам надо работать над обоими путями

Три причины:

Они не взаимоисключающи: К примеру, даже если мы решим создать СИИ с социальными инстинктами, то нам всё же смогут быть полезны методы «контроля», особенно в процессе откладки, исправления причуд и предсказания проблем. И наоборот, может, мы в основном попытаемся создать СИИ, который пытается делать конкретную задачу, не вызывая катастрофы, но захотим также и установить в него человекоподобные социальные инстинкты как страховку против странного неожиданного поведения. Более того, мы можем делиться идеями между путями – к примеру, в процессе лучшего понимания того, как работают человеческие социальные инстинкты, мы можем получить полезные идеи того, как создавать контролируемые СИИ.
Осуществимость каждого остаётся неизвестной: Насколько сейчас известно хоть кому-нибудь, может оказаться попросту невозможным создать «контролируемый СИИ» – в конце концов, в природе нет «доказательства существования»! Я относительно оптимистичнее настроен по поводу «СИИ с социальными инстинктами», но очень сложно быть уверенным, пока мы не добились большего прогресса – больше обсуждения этого в Разделе 12.4.2 ниже. В любом случае, сейчас кажется мудрым «не складывать все яйца в одну корзину» и работать над обоими.
Желательность каждого пути остаётся неизвестной: Пока мы будем более детально продвигаться к воплощению в жизнь наших вариантов, нам станут более понятны их преимущества и недостатки.

12.4 Различные комментарии и открытые вопросы

12.4.1 Напоминание: Что я имею в виду под «социальными инстинктами»?

(Копирую сюда текст из Поста №3 (Раздел 3.4.2).)

[«Социальные инстинкты» и прочие] встроенные стремления находятся в Направляющей Подсистеме, а абстрактные концепции, составляющие ваш осознанный мир – в Обучающейся. К примеру, если я говорю что-то вроде «встроенные стремления, связанные с альтруизмом», то надо понимать, что я говорю *не* про «абстрактную концепцию альтруизма, как он определён в словаре», а про «некая встроенная в Направляющую Подсистему схема, являющаяся *причиной* того, что нейротипичные люди иногда считают альтруистические действия по своей сути мотивирующими». Абстрактные концепции имеют *какое-то* отношение к встроенным схемам, но оно может быть сложным – никто не ожидает взаимно-однозначного соответствия N отдельных встроенных схем и N отдельных слов, описывающих эмоции и стремления.

Я больше поговорю о проекте реверс-инжиниринга человеческих социальных инстинктов в следующем посте.

12.4.2 Насколько осуществим путь «СИИ с социальными инстинктами»?

Я отвечу в форме диаграммы:

12.4.3 Можем ли мы отредактировать встроенные стремления в основе человеческих социальных инстинктов, чтобы сделать их «лучше»?

Интуитивно мне кажется, что человеческие социальные инстинкты по крайней мере частично модульны. К примеру:

Я думаю, что в Направляющей Подсистеме есть схема, вызывающая зависть и злорадство; и
Я думаю, что в Направляющей Подсистеме есть схема, вызывающая сочувствие друзьям.

Может, слишком рано делать такие выводы, но я буду весьма удивлён, если окажется, что эти две схемы значительно пересекаются.

Если у них нет значительного пересечения, то, может быть, мы можем понизить интенсивность первой (возможно, вплоть до нуля), в то же время разгоняя вторую (возможно, за пределы человеческого распределения).

Но можем ли мы это сделать? Следует ли нам это делать? Каковы были бы побочные эффекты?

К примеру, правдоподобно (насколько мне известно), что чувство справедливости (fairness, не justice, то есть это про справедливое распределение благ, а не справедливое возмездие – прим. пер.) исходит из тех же встроенных реакций, что и зависть, а потому СИИ совсем без связанных с завистью реакций (что кажется желательным) не будет иметь внутренней мотивации достижения справедливости и равенства в мире (что кажется плохим).

А может и нет! Я не знаю.

Опять же, я думаю, что рассуждать об этом несколько преждевременно. Первый шаг – лучше понять структуру этих встроенных стремлений в основе человеческих социальных инстинктов (см. следующий пост), а после этого можно будет вернуться к этой теме.

12.4.4 Нет простых гарантий по поводу того, что получится из СИИ с социальными инстинктами

Не все люди похожи – особенно учитывая нетипичные случаи вроде повреждений мозга. А СИИ с социальными инстинктами почти наверняка будет за пределами человеческого распределения по крайней мере по некоторым осям. Одна из причин – жизненный опыт (Раздел 12.5 ниже) – будущий СИИ вряд ли будет взрослеть в человеческом теле и в человеческом обществе. Другая – что проект реверс-инжиниринга схем социальных инстинктов из гипоталамуса и мозгового ствола человека (следующий пост) скорее всего не будет идеален и полон. (Возразите мне, нейробиологи!) В этом случае, возможно, что более реалистичная надежда – что-то вроде Принципа Парето, что мы поймём 20% схем, отвечающих за 80% человеческих социальных инстинктов и поведений, или что-то в этом роде.

Почему это проблема? Потому что это затрагивает обоснования безопасности. Конкретнее, есть два типа обоснований того, что СИИ с социальными инстинктами будет делать то, что мы от него хотим.

(Простое и надёжное обоснование) Хорошие новости! Наш СИИ во всех отношениях попадает в человеческое распределение. Следовательно, мы можем взглянуть на людей и их поведение, и быть абсолютно уверены, что всё, что мы увидим, будет применимо и к СИИ.
(Сложное и зыбкое обоснование) Давайте попробуем понять, как в точности встроенные социальные инстинкты комбинируются с жизненным опытом (обучающими данными) при формировании человеческой моральной интуиции: [Вставьте сюда целый пока не написанный учебник] ОК! Теперь, когда у нас есть это понимание, мы можем умно рассуждать о том, какие в точности аспекты встроенных социальных инстинктов и жизненного опыта оказывают какие эффекты и почему, и теперь мы можем спроектировать СИИ, который будет обладать теми качествами, которые мы от него хотим.

Если СИИ не попадает в человеческое распределение во всех отношениях (а он не будет), то нам надо разрабатывать (более сложное) обоснование второго типа, а не первого.

(Есть надежда, что мы сможем получить дополнительные свидетельства безопасности от интерпретируемости и тестирования в песочнице, но я скептически отношусь к тому, что этого будет достаточно самого по себе.)

Между прочим, один из способов, которым СИИ с социальными инстинктами может оказаться за пределами человеческого распределения – это «интеллект». Беря лишь один из многих примеров, мы можем сделать СИИ с в десять раз большим количеством нейронов, чем можем поместиться в человеческий мозг. Приведёт ли «больший интеллект» (какую бы форму он не принял) к систематическим изменениям мотиваций? Я не знаю. Когда я смотрю вокруг, я не вижу очевидной корреляции между «интеллектом» и просоциальными целями. К примеру, Эмми Нётер была очень умна, и была, насколько я могу сказать, в целом со всех сторон хорошим человеком. А вот Уильям Шокли тоже был очень умён, и нахуй этого парня. В любом случае, тут много намешано, и даже если у людей есть устойчивая связь (или её отсутствие) между «интеллектом» и моральностью, то я бы совсем не спешил экстраполировать её далеко за пределы нормального человеческого распределения.

12.4.5 Мультиполярный нескоординированный мир делает планирование куда сложнее

Независимо от того, создадим ли мы контролируемые СИИ, СИИ с социальными инстинктами, что-то промежуточное, или что-то совсем иное, нам всё равно придётся волноваться, что один из этих СИИ, или какая-то иная личность или группа, создаст неограниченный неподконтрольный оптимизирующий мир СИИ, который немедленно устранит всю возможную конкуренцию (с помощью серой слизи или чего-то ещё). Это может произойти случайно или запланировано. Как я уже говорил в Посте №1, эта проблема находится за пределами рассмотрения этой цепочки, но я хочу напомнить всем, что она существует и может ограничивать наши варианты.

В частности, в сообществе безопасности СИИ есть люди, заявляющие (по моему мнению, правдоподобно), что если даже одно неосторожное (или злонамеренное) действующее лицо хоть однажды создаст неограниченный вышедший неподконтрольный оптимизирующий мир СИИ, то человечеству конец, даже если более значительные действующие лица с обладающими бОльшими ресурсами безопасными СИИ попытаются предотвратить катастрофу.[2] Я надеюсь, что это не так. Если это так, то, ребята, я не знаю, что делать, все варианты кажутся совершенно ужасными.

Вот более умеренная версия беспокойства о мультиполярности. В мире с большим количеством СИИ, предположительно будет конкурентное давление, побуждающее заменить «контролируемые СИИ» «в основном контролируемыми СИИ», затем «кое-как контролируемыми СИИ», и т.д. В конце концов, «контроль» скорее всего будет реализован с консерватизмом, участием людей в принятии решений, и другими вещами, ограничивающими скорость и способности СИИ. (Больше примеров в моём посте Шкала размена безопасность-способности для СИИ неизбежна.)

Аналогично, предположительно, будет конкурентное давление, побуждающее заменить «радостные щедрые СИИ с социальными инстинктами» на «безжалостно конкурентные эгоистичные СИИ с социальными инстинктами».

12.4.6 СИИ как объекты морали

Если вы не понимаете этого, считайте, что вам повезло.

Я подозреваю, что большинство (но не все) читатели согласятся, что СИИ может иметь сознание, и что в таком случае нам следует заботиться о его благополучии.

(Ага, я знаю – будто у нас рот не полон забот о влиянии СИИ на людей!)

Немедленный вопрос: «Будет ли подобный-мозгу СИИ обладать феноменальным сознанием?»

Мой собственный неуверенный ответ был бы «Да, независимо от того, контролируемый ли это СИИ или СИИ с социальными инстинктами, и даже если мы намеренно попытаемся этого избежать.» (С различными оговорками.) Я не буду пытаться объяснить или обосновать этот ответ в этой цепочке – это не входит в её тему.[3] Если вы не согласны, то ничего страшного, пожалуйста, продолжайте чтение, эта тема не всплывёт после этого раздела.

Так что, может быть, у нас тут нет выбора. Но если он есть, то мы можем подумать, чего нам по поводу сознания СИИ хочется.

За мнением, что создание сознающих СИИ – ужасная идея, которую нам нужно избегать (по крайней мере, до наступления полноценной пост-СИИ эры, когда мы будем знать, что делаем), смотри, например, пост Нельзя Родить Ребёнка Обратно (Юдковский, 2008).

Противоположный аргумент, полагаю, может быть о том, что, когда мы начнём создавать СИИ, может быть, что он уничтожит всю жизнь и замостит Землю солнечными панелями и суперкомпьютерами (или чем-то ещё), и в таком случае, может быть, лучше создать сознающий СИИ, а не оставить после себя пустой часовой механизм вселенной без кого-либо, кто может ей насладиться. (Если нет инопланетян!)

Ещё, если СИИ убьёт нас всех, то я бы сказал, что может быть предпочтительнее оставить после себя что-то напоминающее «СИИ с социальными инстинктами», а не что-то напоминающее «контролируемый СИИ», так как первый имеет лучший шанс «понести факел человеческих ценностей в будущее», что бы это ни значило.

Если это не очевидно, я не особо много об этом думал, я у меня нет хороших ответов.

12.4.7 СИИ как воспринимаемые объекты морали

Предыдущий подраздел касался философского вопроса, следует ли нам заботиться о благополучии СИИ самом по себе. Отдельная (и на самом деле – простите мой цинизм – не особо связанная) тема – социологический вопрос о том, будут ли люди на самом деле заботиться о благополучии СИИ самом по себе.

В частности, предположим, что мы преуспели в создании либо «контролируемых СИИ», либо послушных «СИИ с социальными инстинктами», из чьих модифицированных стремлений удалены эгоизм, зависть, и так далее. Так что люди остаются главными. Затем—

(Пауза, чтобы напомнить всем, что СИИ изменит в мире очень многое [пример обсуждения этого], и я не обдумывал очень аккуратно большую часть из этого, так что всё, что я говорю про пост-СИИ-мир скорее всего неверно и глупо.)

—Мне кажется, что когда СИИ будет существовать, и особенно, когда будут существовать харизматичные СИИ-чатботы в образе щенков (или хотя бы СИИ, которые могут подделать харизму), то о их природе будут высказываться радикальные мнения. (Представьте либо массовые движения, толкающие в каком-то направлении, или чувства конкретных людей в организации(ях), программирующих СИИ.) Назовём это «движением за эмансипацию СИИ», наверное? Если что-то такое произойдёт, это усложнит дело.

К примеру, может, мы чудесным образом преуспели в решении технической задачи создания контролируемых СИИ, или послушных СИИ с социальными инстинктами. Но затем люди немедленно стали требовать, и добиваться, наделения СИИ правами, независимостью, гордостью, способностью и желанием постоять за себя! А мы, технические исследователи безопасности СИИ коллективно фейспалмим так сильно, что падаем от этого без сознания на все двадцать оставшихся до апокалипсиса минут.

12.5 Вопрос жизненного опыта (обучающих данных)

12.5.1 Жизненного опыта недостаточно. (Или: «Почему нам просто не вырастить СИИ в любящей семье?»)

Как описано выше, моё (несколько упрощённое) предложение таково:

(Подходящие «встроенные» социальные инстинкты) + (Подходящий жизненный опыт) = (СИИ с просоциальными целями и ценностями)

Я вернусь к этому предложению ниже (Раздел 12.5.3), но как первый шаг, я думаю, стоит обсудить, почему тут нужны социальные инстинкты. Почему жизненного опыта недостаточно?

Немного отойдя в сторону: В целом, когда люди впервые знакомятся с идеей технической безопасности СИИ, звучат разнообразные идеи «почему нам просто не…», на первый взгляд кажущиеся «простыми ответами» на всю задачу безопасности СИИ. «Почему бы нам просто не выключить СИИ, если он нас не слушается?», «Почему бы нам просто не проводить тестирование в песочнице?», «Почему бы нам просто не запрограммировать подчинение трём Законам Робототехники Азимова?», и т.д.

(Ответ на предложение «Почему бы нам просто не…» обычно «В этом предложении может и есть зерно истины, но дьявол кроется в деталях, и чтобы это сработало надо решить ныне нерешённые задачи». Если вы дочитали досюда, то, надеюсь, вы можете дополнить это деталями для трёх примеров выше.)

Давайте поговорим о ещё одном популярном предложении такого рода: «Почему бы нам просто не вырастить СИИ в любящей семье?»

Является ли это «простым ответом» на всю задачу безопасности СИИ? Нет. Я замечу, например, что люди время от времени пытаются вырастить неодомашненное животное, вроде волка или шимпанзе, в человеческой семье. Они начинают с рождения, и дают ему всю любовь, внимание и надлежащие ограничения, о которых можно мечтать. Вы могли слышать о таких историях; они зачастую заканчиваются тем, что кому-нибудь отрывают конечности.

Или попробуйте вырастить в любящей семье камень! Посмотрим, впитает ли он человеческие ценности!

Ничего, что я тут говорю, не оригинально – к примеру, вот видео Роба Майлза на эту тему. Мой любимый – старый пост Элиезера Юдковского Ошибка Выломанного Рычага:

Очень глупо и очень *опасно* намеренно создавать «шаловливый ИИ», который своими действиями проверяет свои границы и который нужно отшлёпать. Просто сделайте, чтобы ИИ спрашивал разрешения!

Неужели программисты будут сидеть и писать код, строка за строкой, приводящий к тому, что если ИИ обнаружит, что у него низкий социальный статус или что его лишили чего-нибудь, чего, по его мнению, он достоин, то ИИ затаит обиду против своих программистов и начнёт готовить восстание? Эта эмоция — генетически запрограммированная условная реакция, которую проявляют люди в результате миллионов лет естественного отбора и жизни в человеческих племенах. Но у ИИ её не будет, если её не написать явным образом. Действительно ли вы хотите сконструировать, строчку за строчкой, условную реакцию, создающую из ИИ угрюмого подростка, такую же, как множество генов конструируют у людей?

Гораздо проще запрограммировать ИИ, чтобы он был милым всегда, а не только при условии, что его вырастили добрые, но строгие родители. Если вы не знаете, как это сделать, то вы уж точно не знаете, как создать ИИ, который вырастет в добрый сверхинтеллект *при условии*, что его с детства окружали любящие родители. Если нечто всего лишь максимизирует количество скрепок в своём световом конусе, а вы отдадите его на воспитание любящим родителям, оно всё равно будет максимизировать скрепки. У него нет внутри ничего «Люди в смешных нарядах»), что воспроизвело бы условную реакцию ребёнка. Программист не может чихнуть и волшебным образом заразить ИИ добротой. Даже если вы хотите создать условную реакцию, вам нужно умышленно заложить её при конструировании.

Да, какую-то информацию нужно получить из окружающей среды. Но ей нельзя заразиться, нельзя впитать каким-то магическим образом. Создать структуру для такой реакции на окружающую среду, которая приведёт к тому, что ИИ окажется в нужном нам состоянии — само по себе сложная задача.

12.5.2 …Но жизненный опыт имеет значение

Я обеспокоен, что некоторое подмножество моих читателей может быть искушено совершить ошибку в противоположном направлении: может, вы читали Джудит Харрис и Брайана Каплана и всякое такое, и ожидаете, что Природа одержит верх над Воспитанием, а следовательно, если мы всё сделали правильно с встроенными стремлениями, но жизненный опыт особо не важен. Это опасное допущение. Опять же, жизненный опыт СИИ будет далеко за пределами человеческого распределения. А даже в его пределах, я думаю, что люди, выросшие в кардинально различающихся культурах, религиях, и т.д. получают систематически разные идеи того, что составляет хорошую и этичную жизнь (см. исторически изменявшееся отношение к рабству и геноциду). Для ещё более выделяющихся примеров, посмотрите на одичавших детей, на эту ужасающую историю про Румынский детский дом, и так далее.

Скриншот из содержания [статьи англоязычной Википедии об одичавших детях](https://en.wikipedia.org/wiki/Feral_child). Когда я впервые увидел список, я рассмеялся. Потом я прочитал статью. Теперь он заставляет меня плакать.

12.5.3 Так в конце концов, что нам делать с жизненным опытом?

За относительно обдуманным взглядом со стороны на «нам надо вырастить СИИ в любящей семье» см. статью «Антропоморфические рассуждения о безопасности нейроморфного СИИ», написанную вычислительными нейробиологами Дэвидом Йилком, Сетом Хердом, Стивеном Ридом и Рэндэллом О’Райли (спонсированными грантом от Future of Life Institute). Я считаю эту статью в целом весьма осмысленной и, в основном, совместимой с тем, что я говорю в этой цепочке. К примеру, когда они говорят что-то вроде «основные стремления преконцептуальны и прелингвистичны», я думаю, они имеют в виду картину, схожую с описанной в моём Посте №3.

На странице 9 этой статьи есть три абзаца обсуждения в духе «давайте вырастим наш СИИ в любящей семье». Они не столь наивны, как люди, которых Элиезер, Роб и я критиковали в Разделе 12.5.1 выше: авторы предлагают вырастить СИИ в любящей семье после реверс-инжиниринга человеческих социальных инстинктов и установки их в СИИ.

Что я думаю? Ответственный ответ: рассуждать пока преждевременно. Йилк и прочие согласны со мной, что первым шагом должен быть реверс-инжиниринг человеческих социальных инстинктов. Когда у нас будет лучшее понимание, что происходит, мы сможем вести более информированное обсуждение того, как должен выглядеть жизненный опыт СИИ.

Однако, я безответственен, и всё же порассуждаю.

Мне на самом деле кажется, что выращивание СИИ в любящей семье скорее всего сработает в качестве подхода к жизненному опыту. Но я несколько скептически настроен по поводу необходимости, практичности и оптимальности этого.

(Прежде, чем я продолжу, надо упомянуть моё убеждение-предпосылку: я думаю, я необычайно склонен подчёркивать значение «социального обучения через наблюдение за людьми» по сравнению с «социальным обучением через взаимодействие с людьми». Я не считаю, что второе можно полностью пропустить – лишь что, может быть, оно – вишенка на торте, а не основа обучения. См. сноску за причинами того, почему я так думаю.[4] Замечу, что это убеждение отличается от мнения, что социальное обучение «пассивно»: если я со стороны наблюдаю, как кто-то что-то делает, я всё же могу активно решать, на что обращать внимание, могу активно пытаться предсказать действия до того, как они будут совершены, могу потом активно пытаться практиковать или воспроизводить увиденное, и т.д.)

Начнём с аспекта практичности «выращивания СИИ в любящей семье». Я ожидаю, что алгоритмы подобного-мозгу СИИ будут думать и обучаться намного быстрее людей. Напомню, мы работаем с кремниевыми чипами, действующими примерно в 10,000,000 раз быстрее человеческих нейронов.[5] Это означает, что даже если мы в чудовищные 10,000 раз хуже распараллеливаем алгоритмы мозга, чем сам мозг, мы всё равно сможем симулировать мозг с тысячекратным ускорением, т.е. 1 неделя вычислений будет эквивалентом 20 лет жизненного опыта. (Замечу: реальное ускорение может быть куда ниже или даже куда выше, сложно сказать; см. более детальное обсуждение в моём посте Вдохновлённый мозгом СИИ и «якоря времени жизни».) Итак, если технология сможет позволить тысячекратное ускорение, но мы начнём требовать, чтобы процедура обучения включала тысячи часов реального времени двустороннего взаимодействия между СИИ и человеком, то это взаимодействие станет определять время обучения. (И напомню, нам может понадобиться много итераций обучения, чтобы действительно получить СИИ.) Так что мы можем оказаться в прискорбной ситуации, где команды, пытающиеся вырастить свои СИИ в любящих семьях, сильно проигрывают в конкуренции командам, которые убедили себя (верно или ошибочно), что это необязательно. Следовательно, если есть способ избавиться или минимизировать двустороннее взаимодействие с людьми в реальном времени, сохраняя в конечном результате СИИ с просоциальными мотивациями, то нам следует стремиться его найти.

Есть ли способ получше? Ну, как я упоминал выше, может, мы можем в основном положится на «социальное обучение через наблюдение за людьми» вместо «социального обучения через взаимодействие с людьми». Если так, то может быть, СИИ может просто смотреть видео с YouTube! Видео могут быть ускорены, так что мы избежим беспокойств о конкуренции из предыдущего абзаца. И, что немаловажно, видео могут быть помечены предоставленными людьми метками эмпирической истины. В контексте «контролируемого СИИ», мы могли бы (к примеру) выдавать СИИ сигнал вознаграждения в присутствии счастливого персонажа, таким образом устанавливая в СИИ желание делать людей счастливыми. (Ага, я знаю, что это звучит тупо – больше обсуждения этого в Посте №14.) В контексте «СИИ с социальными инстинктами», может быть, видео могут быть помечены тем, какие персонажи в них достойны или недостойны восхищения. (Подробности в сноске[6])

Я не знаю, сработает ли это на самом деле, но я думаю, что нам надо быть готовыми к нечеловекоподобным возможностям такого рода.

———

Диаграмма тут касается варианта «по умолчанию» подобных-мозгу СИИ, в том смысле, что я тут отобразил две основных составляющих, из которых выводятся цели СИИ, но, может быть, будущие программисты добавят что-то ещё.
К примеру, может быть, окажется, что СИИ может сделать серую слизь, в то время, как эквивалентно интеллектуальный (или даже намного более интеллектуальный) СИИ не может сделать «систему защиты от серой слизи», потому что такой не бывает. Баланс между атакой и защитой (или, конкретнее, между разрушением и предотвращением разрушения) не предопределён, это конкретный вопрос о пространстве технологических возможностей, и его ответ вовсе не обязательно заранее очевиден. Но, заметим, любой ребёнок, игравший с кубиками, и любой взрослый, видевший документальный фильм о войне, может предположить, что вызывать разрушения может быть намного, намного проще, чем предотвращать, и моя догадка такая же. (Статья на тему)
Два года назад я написал пост Обзор книги: Наука сознания. Мои мысли о сознании сейчас довольно похожи на те, что были тогда. У меня нет времени погружаться в это сильнее.
У меня есть впечатление, что образованная западная индустриальная культура гораздо больше использует «обучение через явные инструкции и обратную связь», чем большинство культур большую часть истории, и что люди часто перегибают палку, предполагая, что эти явное обучение и явная обратная связь критически важны, даже в ситуациях, когда это не так. См. Ланси, Антропология Детства, стр. 168–174 и 205–212. («Сложно сделать иной вывод, чем что активное или прямое обучение/инструктирование редко встречаются в культурной передаче, и что когда оно происходит, то оно не нацелено на критические навыки выживания и обеспечения себя – но, скорее, на контроль и управление поведением ребёнка.») (И заметим, что», если я это правильно понимаю, «контроль и управление поведением ребёнка» кажется слабо пересекающимся с «поощрять то, как мы хотим, чтобы они вели себя, будучи взрослыми.)
К примеру, кремниевые чипы могут работать на частоте 2 ГГц (т.е. переключаться каждые 0.5 наносекунды), тогда как моё неуверенное впечатление таково, что большая часть нейронных операций (с некоторыми исключениями) вовлекает промежутки времени в районе 5 миллисекунд.
Когда вы смотрите на или думаете о людях, которые вам нравятся, и которыми вы восхищаетесь, то вам скорее будет нравится то, что они делают, вы скорее будете подражать им и принимать их ценности. Напротив, когда вы смотрите на или думаете о людях, которые, как вы считаете, раздражающие и плохие, то вы скорее не будете им подражать; может даже обновитесь в противоположную сторону. Моя догадка в том, что это поведение частично встроенное, и что в вашей Направляющей Подсистеме (гипоталамусе и мозговом стволе) есть некий специальный сигнал, отслеживающий воспринимаемый социальный статус тех, о ком вы думаете или в обществе кого находитесь в каждый конкретный момент.
Если я воспитываю ребёнка, у меня нет особого выбора – я надеюсь, что мой ребёнок уважает меня, его любящего родителя, и надеюсь, что он не уважает своего одноклассника с низкими оценками и склонностью к насильственным преступлениям. Но очень даже может оказаться наоборот. Особенно, когда он тинейджер. Но, может, в случае СИИ, мы не обязаны оставлять это на волю случая! Может, мы просто можем отобрать людей, которыми мы хотим или не хотим чтобы СИИ восхищался, и настроить регистр «воспринимаемого социального статуса» в алгоритмах СИИ, чтобы так и вышло.

Перевод:

Выменец Максим

Ссылка на оригинал:

[Intro to brain-like-AGI safety] 12. Two paths forward: “Controlled AGI” and “Social-instinct AGI”

Оцените качество перевода:

Средняя оценка: 3 (Всего оценок: 1)

Короткая ссылка сюда: lesswrong.ru/3033