Вы здесь

Главные вкладки

Дискуссия Нго и Юдковского про сложность задачи согласования

Элиезер Юдковский, Ричард Нго

1.Предварительные комментарии
2.Обсуждение 5 сентября
3.Последующее
- 3.1.Резюмирование Ричарда Нго
4.Обсуждение 8 сентября
5.Последующее
- 5.1.Резюмирование Ричарда Нго
- 5.2.Резюмирование Нейта Соареса

Примечание редактора сайта: Под «согласованием» в заголовке и далее в тексте подразумевается англоязычное «[AI] alignment». В некоторых других статьях на этом сайте этот термин переводился как «соответствие [ИИ целям оператора]». Пока перевод этого термина на русский в сообществе не устоялся.

* * *

Этот пост – первое из серии обсуждений в Discord между Ричардом Нго и Элиезером Юдковским, под модерацией Нейта Соареса. Ричард и Нейт так же резюмировали ход разговора и ответы собеседников в Google Docs, это также добавлено сюда.

В позднейших обсуждениях принимали участие Аджейя Котра, Бет Барнс, Карл Шульман, Холден Карнофски, Яан Таллинн, Пол Кристиано, Роб Бенсингер и Робин Шах.

Это полные записи нескольких созданных MIRI для дискуссий каналов в Discord. Мы пытались как можно меньше редактировать записи сверх исправления опечаток и вводящих в замешательство формулировок, разбивания на параграфы и добавления ссылок. МЫ не редактировали значимое содержание, за исключением имён людей, которые предпочли, чтобы их не упоминали. Мы поменяли порядок некоторых сообщений для ясности и непротиворечивого потока обсуждения (в таких случаях время особо отмечено), и скомбинировали разные логи, когда обсуждение переключалось между каналами.

Предварительные комментарии

[Yudkowsky][8:32] (6 ноября)

(По просьбе Роба, я постараюсь быть кратким, но это экспериментальный формат и некоторые всплывшие проблемы выглядят достаточно важными, чтобы их прокомментировать)

Главным образом в ранней части этого диалога у меня были некоторые уже сформированные гипотезы на тему “Что будет главной точкой несогласия и что мне говорить по этому поводу”, что заставляло меня отклоняться от чистой линии обсуждения, если бы я просто пытался отвечать на вопросы Ричарда. Перечитывая диалог, я заметил, что это выглядит уклончиво, будто я странным образом упускаю суть, не отвечая напрямую на вопросы.

Зачастую ответы даны позднее, по крайней мере, мне так кажется, хотя, может, и не в первой части диалога. Но в целом вышло так, что я пришёл высказать некоторые вещи, а Ричард пришёл задавать вопросы, и получилось небольшое случайное несовпадение. Выглядело бы лучше, если бы, скажем, мы оба сначала выставили свои позиции без знаков вопроса, или если бы я ограничил себя ответами на вопросы Ричарда. (Это не катастрофа, но читателю стоит учитывать это как небольшую неполадку, проявившуюся на ранней стадии экспериментов с этим новым форматом.)

[Yudkowsky][8:32] (6 ноября)

(Подсказано поздними попытками резюмировать диалог. Резюмирование выглядит важным способом распространения для такого большого диалога, и следующая просьба должна быть особо указана, чтобы к ней прислушивались – встроенные в диалог указания не работают.)

Пожалуйста, не резюмируйте этот диалог, говоря “и ГЛАВНАЯ идея Элиезера такая” или “и Элиезер думает, что КЛЮЧЕВОЙ МОМЕНТ в том” или “ОСНОВНОЙ аргумент таков” и.т.д. Мне кажется у всех свои наборы камней преткновения и того, что считается очевидным, и обсуждение с моей стороны сильно меняется в зависимости от них. Когда-то камнями преткновения были Тезис Ортогональности, Инструментальная Конвергенция и возможность суперинтеллекта в принципе; сейчас у большинства связанного с Open Philanthropy народа они уже другие.

Пожалуйста, преобразуйте:

“Основной ответ Элиезера в том…” -> “Элиезер ответил, что…”
“Элиезер считает, что ключевой момент в том…” -> “Элиезер в ответ указал, что…”
“Элиезер считает, что основная проблема в том…” -> “Элиезер ответил, что есть проблема в том…”
“Главный аргумент Элиезера против этого был…” -> “Элиезер возразил тем…”
“Элиезер считает, что основной сценарий тут…” -> “В обсуждении в сентябре 2021, Элиезер обрисовал гипотетический сценарий, где…”

Замечу, что преобразованные утверждения говорят о том, что вы наблюдали, тогда как изначальные - это (зачастую неправильные) выводы о том, что я думаю.

(Однако, “различать относительно ненадёжные выводы от более надёжных наблюдений” – не обязательно ключевая идея или главная причина, по которой я этого прошу. Это просто моё замечание – один аргумент, который, я надеюсь, поможет донести больший тезис.)

Обсуждение 5 сентября

Глубокие и поверхностные шаблоны решения задач

[Ngo][11:00]

Всем привет! С нетерпением жду дискуссии.

[Yudkowsky][11:01]

Привет и добро пожаловать. Моё имя Элиезер и я думаю, что согласование ИИ на самом деле довольно невероятно очень сложно. Кажется, некоторые люди так не думают! Это важная проблема, которую нужно как-то решить, надеюсь, мы сегодня это сделаем. (Однако, я хочу сделать перерыв через 90 минут, если это столько продлится и если суточный цикл Нго позволит продолжать после этого.)

[Ngo][11:02]

Перерыв через 90 минут или около того звучит хорошо.

Вот как можно начать? Я согласен, что согласование людьми произвольно мощного ИИ выглядит очень сложной задачей. Одна из причин, по которым я более оптимистичен (или, по крайней мере, не уверен, что нам придётся столкнуться с полноценной очень сложной версией этой задачи) – это то, что с определённого момента ИИ возьмёт на себя большую часть работы.

Когда ты говоришь о том, что согласование сложное, о согласовании каких ИИ ты думаешь?

[Yudkowsky][11:04]

В моей модели Других Людей, зачастую когда они думают, что согласование не должно быть таким уж сложным, они считают, что есть какая-то конкретная штука, которую можно сделать, чтобы согласовать СИИ, и она не очень сложная. И их модель упускает одну из фундаментальных сложностей, из-за которой не получится выполнить (легко или совсем) какой-то шаг их метода. Так что одно из того, что я делаю в обсуждении – это попытаться расковырять, про какой же именно шаг собеседник не понимает, что он сложный. Сказав это, я теперь попробую ответить на твой вопрос.

[Ngo][11:07]

Я не думаю, что уверен в какой-нибудь конкретной штуке, позволяющей согласовать СИИ. Однако я чувствую неуверенность по поводу того, в насколько большом диапазоне возможностей эта задача может оказаться сложной.

И по некоторым важным переменным, кажется, что свидетельства последнего десятка лет склоняют к тому, чтобы посчитать задачу более простой.

[Yudkowsky][11:09]

Я думаю, что после того, как станет возможным СИИ вообще и его масштабирование до опасного сверхчеловеческого уровня, будет, в лучшем случае, если будут решены многие другие социальные сложности, период от 3-х месяцев до 2-х лет, когда лишь у нескольких действующих лиц есть СИИ, что означает, что этим действующим лицам будет социально-возможно просто решить не масштабировать его до уровня, на котором он автоматически уничтожает мир.

В течении этого периода, чтобы человечество выжило, кто-то должен произвести некое действие, из-за которого мир не будет уничтожен через 3 месяца или 2 года, когда уже у слишком многих будет доступ к коду СИИ, уничтожающего мир, если повернуть рубильник его интеллекта достаточно сильно. Это требует того, чтобы кто-то из первых действующих лиц, создавших СИИ сделал с помощью него что-то, что предотвратит уничтожение мира. Если бы это не требовало суперинтеллекта, мы могли бы сделать это сейчас, но, насколько мне известно, никакого такого доступного людям действия нет.

Так что мы хотим наименее опасное, наиболее легко согласовываемое действие-при-помощи-СИИ, но при этом достаточно мощное, чтобы предотвратить автоматическое разрушение Земли через 3 месяца или 2 года. Оно должно “опрокинуть игровую доску”, не позволив начаться суицидальной игре. Мы должны согласовать СИИ, который осуществит это ключевое действие, чтобы он мог его осуществить, не убив всех.

Замечу в скобках, ни одно достаточно мощное и доскоопрокидывающее действие не умещается в Окно Овертона политики, или, возможно, даже эффективного альтруизма, что представляет отдельную социальную проблему. Я обычно обхожу эту проблему, приводя пример достаточно мощного для опрокидывания доски, но не самого согласовываемого, потому что оно требует слишком много согласованных частей: создать самовоспроизводящиеся в воздухе наносистемы и использовать их (только), чтобы расплавить все GPU.

Поскольку любой такой наносистеме придётся действовать в целом открытом мире, включающем множество сложных деталей, это потребует очень много работы по согласованию, так что это ключевое действие согласовать сложно, и нам стоит сделать что-то другое. Но другая штука, которая есть у меня в мыслях, точно так же за пределами Окна Овертона. Так что я использую “расплавить все GPU”, чтобы указать на требуемую мощность действия и проблему с Окном Овертона, и то и другое мне кажется приблизительно правильного уровня, но то, что я держу в голове проще согласовать. Таким образом, на “Как ты смеешь?” я всегда могу ответить “Не беспокойся, я не собираюсь на самом деле это делать.”

[Ngo][11:14]

Мы могли бы продолжить обсуждение, обсудив ключевое действие “работать над проблемой согласования быстрее, чем могут люди.”

[Yudkowsky][11:15]

Для меня это звучит как что-то требующее высочайшего уровня согласованности и действующее в очень опасном режиме, так что, если можно сделать это, разумнее сделать какое-нибудь другое ключевое действие, использующее меньший уровень технологии согласования.

[Ngo][11:16]

Окей, тут, кажется, трудности с пониманием с моей стороны.

[Yudkowsky][11:16]

В частности, я надеюсь, что – в маловероятном случае нашего выживания – мы сможем выжить, использовав суперинтеллект в смертельно опасном, но всё же менее смертельно опасном режиме “проектирования наносистем”.

А вот “реши для нас согласование” кажется действующим в ещё более опасных режимах “пиши для нас код ИИ” и “очень точно смоделируй человеческую психологию”.

[Ngo][11:17]

Что делает эти режимы такими опасными? То, что людям очень сложно за ними присматривать?

Эти режимы кажутся мне менее опасными в частности потому, что они попадают скорее в область “решения интеллектуальных задач”, а не “достижения последствий в мире”.

[Yudkowsky][11:19][11:21]

Любой вывод ИИ приводит к последствиям в мире. Если выводы исходят от мощного несогласованного разума, то они могут начать причинно-следственную цепочку, приводящую к чему-нибудь опасному, независимо от того, стоит ли в коде комментарий “интеллектуальная задача”.

“Решать интеллектуальные задачи” опасно, когда для этого необходим мощный разум, рассуждающий об областях, которые, будучи решёнными, предоставляют когнитивно-доступные стратегии как сделать что-то опасное.

Я ожидаю, что первое решение согласования, которым можно будет на самом деле пользоваться, в том маловероятном случае, что мы его получим, будет выглядеть на 98% как “не думай обо всех тех темах, которые нам не строго необходимы, и которые близки к способности легко изобрести очень опасные выводы” и на 2% как “всё-таки думай про эту опасную тему, но, пожалуйста, не приходи к стратегиям в ней, которые нас всех убьют”.

[Ngo][11:21][11:22]

Позволь мне попытаться уточнить разделение. Мне кажется, что системы, изначально натренированные делать предсказания о мире, не будут по умолчанию иметь когнитивный аппарат, позволяющий людям совершать действия для преследования своих целей.

Наверное, можно переформулировать мою точку зрения так: мне не кажется неправдоподобным, что мы создадим ИИ значительно умнее (в смысле способности понимать мир), чем люди, но значительно менее агентный.

Есть ли у тебя с этим проблемы?

(очевидно, “агентный” тут довольно недоопределено, может, стоит это пораскапывать)

[Yudkowsky][11:27][11:33]

Я бы точно узнал совсем новые и удивительные факты про интеллект, действительно противоречащие моей модели того, как работают интеллекты, могущие появиться в рамках текущей парадигмы, если ты покажешь мне… как бы это выразить в общем случае… что задачи, которые я считал задачами про поиск состояний, получающих высокую оценку при скармливании их в функцию результатов, а затем в функцию оценки результатов, на самом деле задачи про что-то другое. Я иногда даю более конкретные названия, но, думаю, люди приходят в замешательство от моих обычных терминов, так что я их обошёл.

В частности, так же как в моей модели Убеждений Других Людей они считают, что согласование простое, потому что они не знают про сложности, которые я вижу как очень глубокие и фундаментальные и сложноизбегаемые, так же в этой модели они думают “почему бы просто не создать ИИ, который будет делать X, но не Y?” потому что они не осознают, что у X и Y общего, потому что для этого нужно иметь глубокую модель интеллекта. И этот глубокий теоретический разрыв сложно перешагнуть.

Но вообще можно найти неплохие практические подсказки на то, что эти штуки куда более скоррелированны, чем, скажем, считал Робин Хансон во время нашего FOOM-спора. Робин не думал, что может существовать что-то вроде GPT-3; он считал, что потребуется проводить обучение на множестве узких областей, которые не будут обобщаться. Я тогда возразил, что у людей есть зрительная кора и мозжечок, но нет Коры Проектирования Автомобилей. Потом оказалось, что реальность на более Элиезеровской стороне оси Элиезер-Робин, чем я, и что штуки вроде GTP-3 менее архитектурно сложны и больше обобщаются, чем я тогда доказывал Робину.

Иногда я использую метафору о том, что очень сложно создать систему, которая будет уметь водить красные машины, но не будет очень похожа на систему, которая, с небольшими изменениями, будет уметь водить синие. Задача “водить красную машину” и задача “водить синюю машину” имеют слишком много общего. Ты можешь предложить: “Согласуй систему так, чтобы у неё была возможность водить красные машины, но чтобы она отказывалась водить синие”. Ты не можешь создать систему, которая будет очень хороша в вождении красных машин, но совершенно не умеет водить синие из-за ненатренированности на это. Градиентный спуск, генетический алгоритм или любой другой правдоподобный метод оптимизации обнаружит очень похожие шаблоны для вождения красных и синих машин. Оптимизируя для красных машин, ты получишь способность водить синие, хочешь ты того или нет.

[Ngo][11:32]

Отвергает ли твоя модель интеллекта возможность создания ИИ, сильно продвигающего математику без убийства нас всех?

[Yudkowsky][11:34][11:39]

Если бы было возможно совершить какое-нибудь ключевое действие для спасения мира с ИИ, который может лишь доказывать математические теоремы, без необходимости, например, объяснять доказательства людям, я был бы невероятно заинтересован в этом как в потенциальном ключевом действии. Я не достиг бы полной ясности, и всё ещё не знал бы, как создать ИИ, не убив всех, но такое действие немедленно стало бы очевидным первоочередным направлением разработок.

Кстати, моя модель интеллекта отвергает очень-очень мало возможностей. Я думаю, что мы все умрём, потому что у нас не получится сделать правильно некоторые опасные вещи с первого раза в опасном режиме, где одна ошибка уже фатальна, причём сделать их до того, как нас убьёт распространение куда более простых технологий. При наличии Учебника Из Будущего Через Сто Лет, в котором для всего приведены простые надёжные действительно работающие решения, вполне можно было бы воспользоваться методами из него, чтобы написать суперинтеллект, который думает, что 2 + 2 = 5.

(В учебнике есть эквивалент “используйте ReLu вместо сигмоид” для всего и нету всех по-умному звучащих штук, которые работают на дочеловеческих уровнях, и лажают, если применить их для суперинтеллекта.)

[Ngo][11:36][11:40]

Хм-м-м, предположим, что мы натренировали ИИ доказывать теоремы, возможно, с помощью какого-нибудь состязательного обучающего процесса “составить задачу - решить задачу”.

Моя интуиция говорит, что по умолчанию этот ИИ сможет научиться очень хорошо – далеко за пределами человеческого уровня – доказывать теоремы, не имея целей касательно реального мира.

Я так понял, что в твоей модели интеллекта способность к решению математических или сходных задач плотно связана с попытками достижения результатов в реальном мире. Но для меня GPT-3 является свидетельством против такой позиции (хотя всё ещё и свидетельством в пользу твоей позиции относительно позиции Хансона), ведь она кажется способной к некоторым рассуждениям, будучи не особо агентной.

В альтернативном мире, в котором у нас не получилось натренировать языковую модель на некоторые рассудительные задачи, не натренировав её вначале на выполнение задач в сложном RL-окружении, я был бы значительно менее оптимистичен.

[Yudkowsky][11:41]

Я скажу, что в твоих оценках есть предсказуемое искажение из-за того, что ты, не зная о Глубоких Штуках, нужных для доказательства теорем, представляешь, что они менее похожи на иные когнитивные способности, чем на самом деле. Зная о том, как именно люди используют свою способность рассуждать о каменных топорах и других людях для доказательства математических теорем, ты бы считал более правдоподобным обобщение способности доказывать теоремы до топоров и манипуляции людьми.

Моё мнение о GPT-3… сложно соотносится с моими взглядами на интеллект. Там взаимодействует огромное количество выученных неглубоких паттернов. Крайне маловероятно, что GPT-3 похожа на то, как естественный отбор создал людей.

[Ngo][11:44]

С последним я соглашусь. Но это и есть одна из причин, почему я заявил, что ИИ может быть умнее людей, будучи менее агентным, ведь есть систематические различия между тем, как естественный отбор создал людей, и тем, как мы обучаем ИИ.

[Yudkowsky][11:45]

Я подозреваю, что просто “Больше Слоёв” будет недостаточно, чтобы привести нас к GPT-6, являющейся настоящим СИИ; потому, что GPT-3, по твоей терминологии, не агентна, и, по моей терминологии, градиентный спуск от GPT-3 не обнаружит достаточно глубоких шаблонов решения задач.

[Ngo][11:46]

Окей, это помогло мне лучше понять твою позицию.

Есть одно важное различие между людьми и нейросетями: у людей есть проблема низкой пропускной способности генома, что означает, что каждый индивид должен перевывести знания о мире, которые уже были у его родителей. Если бы это ограничение не было таким жёстким, отдельные люди были бы значительно менее способны к решению новых задач.

[Yudkowsky][11:50]

Согласен.

[Ngo][11:50]

В моей терминологии, это причина, по которой люди “более агентны”, чем были бы иначе.

[Yudkowsky][11:50]

Звучит бесспорно.

[Ngo][11:51]

Другое важное различие: обучение людей проходило в условиях, где нам надо было целыми днями заниматься выживанием, а не решать математические задачи и тому подобное.

[Yudkowsky][11:51]

Я продолжаю кивать.

[Ngo][11:52]

Предположим, я соглашусь, что достижение некоторого уровня интеллекта потребует у ИИ “глубоких паттернов решения задач”, о которых ты говоришь, и поэтому ИИ будет пытаться достичь целей в реальном мире. Всё ещё кажется, что может быть много пространства между этим уровнем интеллекта и человеческим.

И если так, то можно создать ИИ, который поможет нам решить задачу согласования до ИИ с достаточно глубокими паттернами решения задач для того чтобы задумать захватить мир.

А ещё причина, по которой люди хотят захватить мир, кажется не связанной с глубинными фактами про наш интеллект. Скорее мне видится, что люди хотят захватить мир в основном потому, что это очень похоже на штуки, для которых мы эволюционировали (вроде захвата власти в племени).

[Yudkowsky][11:57]

Вот часть, с которой я соглашусь: если бы была одна теорема, лишь слегка за пределами человеческих возможностей, вроде гипотезы-ABC (если ты не считаешь её уже доказанной), и получение машинно-читаемого доказательства этой теоремы немедленно спасало бы мир – скажем, инопланетяне дали бы нам согласованный суперинтеллект, как только мы дадим им это доказательство – тогда существовал бы правдоподобный, хоть и не очень надёжный путь к спасению мира через попытку создать поверхностный разум для доказательства гипотезы-ABC, запомнивший через игру с самим собой кучу относительно поверхностных шаблонов математических доказательств, но так и не дошедший до человеческих уровней математической абстракции, просто обладающий достаточным объёмом памяти и глубиной поиска для этой задачи. Для ясности – я не уверен, что это могло бы сработать. Но моя модель интеллекта не отвергает такой возможности.

[Ngo][11:58]

(Я скорее думал о разуме, который понимает математику глубже, чем люди – но только математику, или, может, ещё некоторые науки.)

[Yudkowsky][12:00]

Части, с которыми я не согласен: что “помоги нам решить согласование” в достаточной степени похоже на “предоставь нам машинно-читаемое доказательство гипотезы-ABC, не думая о ней слишком глубоко”. Что люди хотят захватить мир только потому, что это напоминает штуки, для которых мы эволюционировали.

[Ngo][12:01]

Я определённо согласен, что люди хотят захватить мир не только потому, что это напоминает штуки, для которых мы эволюционировали.

[Yudkowsky][12:02]

Увы, но отбрасывание 5 причин, почему что-то пойдёт не так, не слишком поможет, если есть 2 оставшиеся причины, от которых куда сложнее избавиться.

[Ngo][12:02]

Но если мы представим интеллект человеческого уровня, который не эволюционировал для штук, напоминающих захват мира, то я ожидаю, что мы могли бы довольно безопасно задавать ему вопросы.

И что это также верно для интеллекта заметно выше человеческого уровня.

Так что вопрос: насколько выше человеческого уровня мы можем забраться прежде, чем система, обученная только штукам вроде ответов на вопросы и пониманию мира, решит захватить мир?

[Yudkowsky][12:04]

Я думаю, что это один из редких случаев, когда разрыв в интеллекте между “деревенским дурачком” и “Эйнштейном”, который я обычно считаю очень узким, имеет важное значение! Я думаю, ты можешь получать выводы от СИИ-уровня-деревенского-дурачка, обученного исключительно на математике, и это навееееерное не уничтожит мир (если ты не ошибаешься, с чем имеешь дело). Уровень Эйнштейна беспокоит меня куда больше.

[Ngo][12:05]

Давай тогда сосредоточимся на уровне Эйнштейна.

Человеческий мозг довольно слабо оптимизирован для занятия наукой.

Можно предположить, что создать ИИ, который занимается наукой на уровне-Эйнштейна значительно проще, чем создать ИИ, который захватывает мир на уровне-Эйнштейна (или делает что-то ещё, для чего эволюционировали люди).

[Yudkowsky][12:08]

Я думаю, что соглашусь с буквальной истинностью сказанного в некотором широком смысле. Но ты будешь систематически переоценивать, насколько проще, или как далеко ты можешь продвинуть научную часть, не получив захватывающую мир часть, пока твоя модель игнорирует, сколько между ними общего.

[Ngo][12:08]

Тогда, может, самое время рассмотреть детали того, что между ними общего.

[Yudkowsky][12:09][12:11]][12:13]

Мне кажется, у меня не очень получалось объяснить это в прошлые разы. Не тебе, другим людям.

Есть поверхностные темы, вроде того, почему философские зомби не могут существовать, и как работает квантовая механика, и почему наука должна использовать функции правдоподобия вместо p-критериев, и я едва могу объяснить их некоторым людям. А есть вещи, которые объяснить намного сложнее, они находятся за пределами моих способностей к объяснениям.

Поэтому я пытаюсь указать, что даже если ты не знаешь конкретики, ты можешь признать существование искажения твоей оценки.

Конечно, я не был очень успешен и говоря людям “Ну, даже если ты не знаешь правды про X, которая позволила бы тебе увидеть Y, разве не понятно тебе из абстрактных размышлений, что любая правда о X предсказуемо сдвинет твои убеждения в сторону Y?”, люди, кажется, такое не очень понимают. Не ты, в других дискуссиях.

[Ngo][12:10][12:11][12:13]

Осмысленно. Могу ли я сделать это проще? Например, могу попробовать изложить то, как я вижу твою позицию.

Учитывая то, что ты сказал, я не очень рассчитываю, что это сильно поможет.

Но раз уж это основные источники твоих заявлений, стоит попробовать.

Другой подход – сосредоточиться на предсказаниях развития способностей ИИ в ближайшие пять лет.

Я приму твоё предупреждение про искажение оценки. Мне кажется, что есть и обратное искажение от того, что, пока мы не знаем механизмы работы разных человеческих способностей, мы склонны представлять их одной и той же штукой.

[Yudkowsky][12:14]

Ага. Если не знать про зрительную кору и слуховую кору, или про глаза и уши, то можно было бы предположить, что любое сознание невозможно без зрения и слуха.

[Ngo][12:16]

Так что моя позиция такая: люди преследуют цели из-за эволюционно вложенных эмоций и сигналов подкрепления, и без них мы были бы куда безопаснее, но не особо хуже в распознавании паттернов.

[Yudkowsky][12:17]

Если бы было ключевое действие, которое можно выполнить с помощью всего лишь сверхчеловеческого распознавания паттернов, это точно так же как “ключевое действие только из математики” мгновенно стало бы основным направлением разработок.

[Ngo][12:18]

Мне кажется, что математика куда в большей степени про распознавание паттернов, чем, скажем, управление компанией. Управление компанией требует последовательности на протяжении длительных промежутков времени, долговременной памяти, мотивации, осознанности, и т.д.

[Yudkowsky][12:18][12:23]

(Одно направление исследований можно было приблизительно описать как “как насчёт ключевого действия, состоящего исключительно из предсказания текста”, и моим ответом было “вы пытаетесь получить полноценные способности СИИ, предсказывая текст про глубокое/“агентное“ мышление, так что это ничем не лучше”.)

Человеческая математика очень даже про достижение целей. Люди хотят доказать леммы, чтобы потом доказать теоремы. Может и можно создать не такого математика, чья опасная непонятная часть, состоящая из векторов вещественных чисел, действует скорее как GPT-3. Но и тогда снаружи потребуется что-то больше похожее на Alpha-Zero для выбора направления поиска.

Возможно, эта наружная оболочка может быть достаточно мощной и не будучи рефлексивной. Так что правдоподобно, что куда проще создать математика, способного к сверхчеловеческому доказательству теорем, но не агентного. Реальность может сказать нам “лол, нет”, но моя модель интеллекта её не обязывает. Поэтому, если ты дашь мне ключевое действие, состоящее исключительно из “вывести машиночитаемое доказательство такой-то теоремы, и мир спасён”, то я бы выбрал его! Это и правда выглядит куда проще!

[Ngo][12:21][12:25]

Окей, попробую перефразировать твой аргумент:

Твоя позиция: существует фундаментальное сходство между задачами вроде математики, исследования согласования и захвата мира. Для того, чтобы хорошо обучиться чему-то из этого, агенту, основанному на чём-то похожем на современное машинное обучение, надо будет усвоить глубокие паттерны решения задач, включающие мышление, ориентированное на достижение целей. Так что хоть и возможно превзойти людей в какой-то одной из этих задач без этих общих компетенций, люди обычно переоценивают степень, в которой это возможно.

[Yudkowsky][12:25]

Напомню, я беспокоюсь в основном о том, что произойдёт первым, особенно если это произойдёт достаточно скоро, чтобы этот будущий СИИ был хоть сколько-нибудь похож на современные системы машинного обучения. Не о том, что возможно в принципе.

[Soares][12:26]

(Замечу: прошло 85 минут, мы планировали перерыв через 90, так что сейчас, кажется, подходящий момент, чтобы ещё немного прояснить резюмирование Ричарда перед перерывом)

[Ngo][12:26]

Я исправлю на, скажем, “правдоподобно для техник машинного обучения?”

(и “степень, в которой это правдоподобно”)

[Yudkowsky][12:28]

Я думаю, что очевидное-для-меня будущее развитие современных парадигм ML по дороге к значительно сверхчеловеческому X крайне вероятно придёт к обобщениям, приводящим к захвату мира. Насколько быстро это произойдёт, зависит от X. Правдоподобно, что это произойдёт относительно медленно, если взять как X доказательство теорем, использовать архитектуру, запоминающую осторожным градиентным спуском сеть поверхностных архитектур для распознавания паттернов, и убрать часть, отвечающую за поиск (типа того, это не безопасно в общем, это не универсальная формула для безопасных штук). Медленнее, чем если ввести что-то вроде генетического бутылочного горлышка, на которое ты правильно указал, как на причину, почему люди научились обобщать. Выгодные X и любые X, которые я могу представить подходящими для спасения мира, кажутся куда более проблематичными.

[Ngo][12:30]

Окей, с удовольствием возьму перерыв сейчас.

[Soares][12:30]

Как раз вовремя!

[Ngo][12:30]

Мы можем потом немного пообсуждать на метауровне; у меня возник порыв удариться в вопрос о том, насколько Элиезер считает исследования согласования похожими на доказательства теорем.

[Yudkowsky][12:30]

Ага. У меня сейчас полдник (на самом деле, первая еда за день на 600-калорийной диете), так что я могу вернуться через 45 минут, если тебе это подходит.

[Ngo][12:31]

Конечно.

Ещё, если нас читают в реальном времени, и у вас есть предложения или комментарии, мне было бы интересно их выслушать.

[Yudkowsky][12:31]

Я тоже приветствую предложения и комментарии от наблюдателей во время перерыва.

[Soares][12:32]

Звучит неплохо. Я объявляю перерыв на 45 минут, после чего мы продолжим (по умолчанию на ещё 90).

Открыты к предложениям и комментариям.

Требования для науки

[Yudkowsky][12:50]

Я освобожусь пораньше, если всем (в основном Ричарду) удобно, можно продолжить через 10 минут (после 30 минут перерыва)

[Ngo][12:51]

Да, с удовольствием

[Soares][12:57]

Немного быстрых комментариев от меня:

Мне кажется, главный камень преткновения тут что-то вроде “стоит ли ожидать, что системы, способные к исполнению ключевого действия, будут, по умолчанию, без значительных технических усилий по согласованию, использовать свой вывод для оптимизации будущего”.
Мне любопытно, согласитесь ли вы, что он именно такой (но плз не отвлекайтесь слишком на ответы мне.)
Мне нравится, как идёт обсуждение в целом.
- В частности, ура-ура за отчётливые аккуратные усилия по сосредоточению на ключевых моментах.

[Ngo][13:00]

Я думаю, что таков камень преткновения для конкретного ключевого действия “лучше исследовать согласование”, и может, ещё некоторых, но не для всех (и не обязательно большинства)

[Yudkowsky][13:01]

Мне стоит явно сказать, что я немного работал с Аджейей, пытаясь передать понимание того, почему склонны выучиваться глубокие обобщённые паттерны, для чего пришлось рассмотреть кучу вопросов. Это научило меня тому, сколько вопросов приходится рассматривать, и из-за этого я теперь относительно менее охотно пытаюсь перерассмотреть те же вопросы тут.

[Ngo][13:02]

Пара вещей, о которых я хотел бы спросить Элиезера в дальнейшем:

Чем наиболее полезные для исследования согласования задачи похожи и чем различаются с доказательством математических теорем (которое, как мы согласились, может довольно медленно обобщаться до захвата мира)?
Что из себя представляют стоящие за этими задачами глубокие паттерны?
Можешь ли ты пересказать мою позицию?

Я собирался заявить, что второй пункт кажется самым перспективным для вынесения идей на публику.

Но раз это всё равно произойдёт благодаря работе с Аджейей, то не так уж важно.

[Yudkowsky][13:03]

Я всё равно могу быстренько попробовать и посмотреть, как получится.

[Ngo][13:03]

Выглядит полезно, если тебе хочется.

В то же время, я попробую просуммировать мои собственные относящиеся к делу интуитивные рассуждения об интеллекте.

[Yudkowsky][13:04]

Я не уверен, что я смогу пересказать твою позицию в не-соломенном виде. Для меня есть огромное видимое различие между “решать для нас согласование” и “выводить машинно-читаемые доказательства теорем”, и я не могу толком понять, почему ты считаешь, что рассуждения о втором скажут нам что-то важное про первое. Я не знаю и какое ещё ключевое действие по твоему мнению может быть проще.

[Ngo][13:06]

Вижу. Я рассматривал “решать научные задачи” как альтернативу для “доказывать теоремы”, ведь согласование – это (особенно сложный) пример научной задачи.

Но решил начать с обсуждения доказательства теорем, поскольку это выглядит яснее.

[Yudkowsky][13:07]

Можешь ли ты предсказать заранее, почему Элиезер считает “решать научные задачи” значительно более рискованным случаем? (А согласование – это точно не “особенно сложный пример научной проблемы”, кроме как разве что в смысле того, что в нём вообще есть какая-то наука; возможно, именно это настоящий камень преткновения; и это более сложная тема)

[Ngo][13:09]

Основываясь на твоих предыдущих комментариях, я сейчас предсказываю, что ты думаешь, что шаг, на котором решения должны стать понятными и оцениваемыми людьми, делает науку более рискованным случаем, чем доказательство теорем, в котором решения можно проверять автоматически.

[Yudkowsky][13:10]

Это один из факторов. Следует ли мне выложить основной, или лучше ты сам попробуешь его сформулировать?

[Ngo][13:10]

Требование многих знаний о реальном мире для науки?

Если не то, то выкладывай.

[Yudkowsky][13:11]

Это возможная формулировка. Я обычно формулирую через формулирование гипотез о реальном мире.

Как бы в этом тогда и есть задача ИИ.

Фактор 3: Многие интерпретации занятий наукой требуют придумывания экспериментов. Это включает в себя планирование, придание информации ценности, поиск способов проведения эксперимента для различения гипотез (что означает поиск начальных условий, приводящих к определённым последствиям).

[Ngo][13:12]

Для меня “моделирование реального мира” – это довольно плавный параметр. На одном конце мы имеем физические уравнения, которые едва отличимы от математических задач, а на другом что-то делающих людей с физическими телами.

Для меня выглядит правдоподобным создание агента, который будет решать научные задачи, но будет слабо осведомлён о себе (в смысле знания, что он ИИ, что он обучен, и т.д.).

Я ожидаю, что твой ответ будет о том, что моделирование себя – это один из глубоких паттернов решения задач, которые скорее всего будут у СИИ.

[Yudkowsky][13:15]

Перед сознанием-занимающимся-наукой стоит задача выяснения причин сенсорного опыта. (Она, на самом деле, встаёт и при человеческих занятиях математикой, и, возможно, неотделима от математики в целом; но это скорее говорит: “Упс, кажется, вы получили всё же науку” - а не что наука менее опасна, потому что похожа на математику.)

Ты можешь создать ИИ, который водит только красные машины, и которому никогда не приходилось водить синие. Это не означает, что его способности вождения-красных-машин не окажутся чрезвычайно близки к способностям вождения-синих-машин, если в какой-то момент внутренние рассуждения направятся на задачу вождения синей машины.

Факт существования глубокого паттерна вождения-машин, общего для красных и синих машин, не означает, что ИИ обязательно водил синие машины, или что ему обязательно водить синие машины, чтобы научиться водить красные. Но если синие машины – это огонь, то ты точно играешь с этим огнём.

[Ngo][13:18]

Для меня “сенсорный опыт” как “видео и аудио, приходящее от тела, которым я управляю” и “сенсорный опыт” как “файл, содержащий последние результаты от Большого Адронного Коллайдера” довольно сильно различаются.

(Я не говорю, что второго хватит для обучения ИИ-учёного, но, возможно, хватит чего-то, что ближе к второму, чем к первому)

[Yudkowsky][13:19]

“Обязательно ли СИИ нужно моделировать себя в мире, чтобы заниматься наукой” и “не создали ли мы что-то, что может наткнуться на моделирование себя из-за случайности, произошедшей где-то в непонятных векторах чисел, особенно если это окажется хоть чуть-чуть полезно для решения внешних задач” – это два отдельных вопроса.

[Ngo][13:19]

Хмм, понимаю

[Yudkowsky][13:20][13:21][13:21]

Если попробовать создать ИИ, который занимается наукой буквально только через сбор наблюдений и никак каузально не связан с этими наблюдениями, то это, пожалуй, “опаснее математики, но может и менее опасно, чем активная наука”.

Всё ещё можно будет наткнуться на активного учёного, потому что это окажется простым внутренним решением для чего-нибудь, но внешняя задача будет лишена этого важного структурного свойства так же, как и чистая математика, не описывающая настоящие земные объекты.

И, конечно, моя реакция будет: “Нет ключевого действия, использующего только такие когнитивные способности.”

[Ngo][13:20][13:21][13:26]

Моя (довольно уверенная) априорная догадка такова, что что-то вроде самомоделирования, которое очень глубоко встроено в почти любой организм, это очень сложная (при отсутствии значительного оптимизационного давления в этом направлении) для случайного натыкания ИИ штука.

Но я не уверен, как это обосновать, кроме как вкапываясь в твои взгляды на то, чем являются глубокие паттерны решения задач. Так что, если ты всё ещё хочешь быстро попробовать это объяснить, было бы полезно.

“Каузальная связь” опять же выглядит плавным параметром – кажется, что количество связи, необходимое для науки, куда меньше, чем, скажем, для управления компанией.

[Yudkowsky][13:26]

Ключевая штука, кажется – не столько количество, сколько внутреннее устройство, необходимое для неё.

[Ngo][13:27]

Согласен.

[Yudkowsky][13:27]

Если ты вернёшься во времени в 16-й век и захочешь получить всего одну дозу mRNA-вакцины, это не особо отличается от получения миллиона сотни.

[Ngo][13:28]

Ладно, тогда дополнительная используемая мной предпосылка в том, что способность рассуждать о каузальном влиянии на мир для достижения целей – это что-то, чего можно иметь всего чуть-чуть.

Или много, и зависеть это может от обучающих данных.

Я ожидаю, что с этим ты не согласишься.

[Yudkowsky][13:29]

Если ты сведёшь ключевое действие к “просмотри данные от этого адронного коллайдера, который ты не строил и не запускал”, то это действительно важный шаг от “занимайся наукой” или “создай наносистемы”. Но я не вижу таких ключевых действий, так что так ли это важно?

Если есть промежуточные шаги, можно их описать как “мышление о каузальном воздействии только в этой заранее заданной, не изученной в общем области, в отдельной части когнитивной архитектуры, отделяемой от всех остальных частей”.

[Ngo][13:31]

Может, по-другому можно сформулировать как то, что у агента есть поверхностное понимание того, как оказывать влияние.

[Yudkowsky][13:31]

Что для тебя “поверхностное”?

[Ngo][13:31]

В духе того, как ты утверждаешь, что у GPT-3 есть поверхностное понимание языка.

[Yudkowsky][13:32]

То есть, он запомнил кучу поверхностных паттернов оказания-каузального-воздействия из большого набора данных, и это может быть подтверждено, например, предоставлением ему случая из-за пределов этого набора и наблюдением за тем, как он проваливается. Что, как мы думаем, подтвердит нашу гипотезу о том, что он не научился из набора данных глубоким обобщениям.

[Ngo][13:33]

Грубо говоря, да.

[Yudkowsky][13:34]

К примеру, нас совсем бы не удивило, если бы GPT-4 научился предсказывать “27 * 18”, но не “какова площадь прямоугольника 27 метров на 18 метров”… хотел бы я сказать, но Codex уверенно продемонстрировал, что от одного до другого довольно-таки близко.

[Ngo][13:34]

Один способ, как это можно было бы сделать: представь агента, быстро теряющего связность действий, когда он пытается действовать в мире.

К примеру, мы натренировали его проводить научные эксперименты, длящиеся несколько часов или дней.

И он очень хорош в понимании экспериментальных данных и вычленении из них паттернов

Но если его запустить на неделю или месяц, то он теряет связность похожим образом на то, как GTP-3 теряет связность, т.е. забывает, что он делает.

Как это так получилось: есть специфический навык обладания долговременной памятью, и мы никогда не тренировали агента в этом навыке, вот он его и не приобрёл (хоть он и может очень мощно и обобщённо рассуждать в короткие промежутки времени).

Это кажется схожим с моим аргументом о том, как агент может не моделировать себя, если мы его специально на это не тренировали.

[Yudkowsky][13:39]

Есть набор очевидных для меня тактик для осуществления ключевого действия с минимальной опасностью (я не думаю, что они делают задачу безопасной), и одна из них это, действительно “Ограничить ‘окно внимания“ или какой-нибудь ещё внутренний параметр, повышать его медленно и не повышать выше необходимого для решения задачи.”

[Ngo][13:41]

Это можно делать вручную, но я ожидаю, что это может быть сделано автоматически, через обучение агентов в окружении, где они не будут получать выгоду от длительного поддержания внимания.

[Yudkowsky][13:42]

(Каждый раз, когда кто-нибудь достаточно осторожный представляет тактику такого рода, он должен представить множество способов, которыми всё может пойти не так; к примеру, если в предоставленных данных или внутреннем состоянии агента есть что-то, зависящее от прошлых событий таким образом, что оно выдаёт о них информацию. Но, в зависимости от того, насколько суперинтеллектуальны иные части, иногда может и прокатить.)

[Ngo][13:43]

И если ты поместишь агентов в окружения, где им надо отвечать на вопросы, не особо взаимодействую с внешним миром, то у них не будет множества качеств, необходимых для достижения целей в реальном мире, потому что они не будут получать особого преимущества от оптимизации этих качеств.

[Yudkowsky][13:43]

Замечу, что TransformerXL обобщил своё окно внимания, он был натренирован на, кажется, 380 токенов или около того, а потом оказалось, что оно у него около 4000 токенов.

[Ngo][13:43]

Ага, обобщение на порядок меня не удивляет.

[Yudkowsky][13:44]

Наблюдав обобщение на один порядок, я лично теперь не удивился бы и двум.

[Ngo][13:45]

Я был бы несколько удивлён, но, полагаю, такое случается.

Настройка возможностей

[Yudkowsky][13:46]

Мне кажется, это всё крутится вокруг вопроса “Но что ты сделаешь с настолько ослабленным интеллектом?”. Если ты можешь спасти мир с помощью булыжника, я могу тебе обеспечить очень безопасный булыжник.

[Ngo][13:46]

Верно.

До сих пор я говорил “исследование согласования”, но был не очень конкретен.

Я полагаю, что тут должен быть контекст того, что первые вещи, которые мы делаем с таким интеллектом, это улучшаем общее благосостояние, продвигаем науку, и т.д.

И после этого мы в мире, где люди воспринимают перспективу СИИ куда серьёзнее

[Yudkowsky][13:48]

Я в целом ожидаю – хотя с какими-то шансами реальность может сказать: “Ну и что?” и удивить меня, это не настолько твёрдо определено как многие другие штуки – что у нас не будет длинной фазы “странного СИИ ~человеческого уровня” перед фазой “если ты разгонишь этот СИИ, он уничтожит мир”. Говоря в числах, скажем, меньше пяти лет.

Меня совершенно не удивит, если мир закончится до того, как беспилотные автомобили станут продаваться на массовом рынке. В некоторых вполне правдоподобных сценариях, которым я сейчас приписываю >50% вероятности, компании, разрабатывающие СИИ, смогут предоставить прототипы управляющего автомобилем ИИ, если потратят на это время, и это будет близкий-к-концу-света уровень технологий; но будет Много Очень Серьёзных Вопросов о свободном выпускании на дороги этого относительно нового недоказанного достижения машинного обучения. И их технология СИИ уже будет иметь свойство “можно разогнать до уничтожения мира” до того, как Земля получит свойство “беспилотные автомобили разрешены на массовом рынке”, просто потому, что на это не хватит времени.

[Ngo][13:52]

Тогда я ожидаю, что другая штука, которую можно сделать – это собрать очень большой объём данных, вознаграждающий ИИ за следование указаниям людей.

[Yudkowsky][13:52]

В других сценариях, конечно, беспилотное вождение становится возможным с ограниченным ИИ задолго до прорыва к СИИ. И в некоторых сценариях СИИ будет получен с помощью прорыва в чём-то уже довольно быстро масштабируемом, так что к моменту, или вскоре после него, когда технологию можно будет использовать для беспилотных автомобилей, она уже уничтожит мир по повороту рубильника.

[Ngo][13:53]

Когда ты говоришь о “разгонке СИИ”, что ты имеешь в виду?

Использовать больше вычислительных мощностей на тех же данных?

[Yudkowsky][13:53]

Запустить с увеличенными границами циклов for, или наибольшем количестве GPU, если точнее.

[Ngo][13:53]

В режиме обучения с подкреплением, или обучении с учителем, или без учителя?

Ещё: можно поподробнее про циклы for?

[Yudkowsky][13:56]

Я не думаю, что просто градиентный спуск на Большем Количестве Слоёв – как, скажем, сделали OpenAI с GPT-3, в противоположность Deepmind, которые создают более сложные артефакты вроде Mu Zero или AlphaFold 2, будет первым путём, который приведёт к СИИ. Я избегаю письменно высказывать предположения об умных путях к СИИ, и, я думаю, любой умный человек, если он действительно умный, а не просто приукрашенно-глупый, не будет говорить о том, чего, как ему кажется, не хватает в стратегии Большего Количества Слоёв или как на самом деле можно получить СИИ. С учётом этого, то, что нельзя просто запустить GPT-3 с большей глубиной поиска так, как можно с Mu Zero – это часть того, почему я считаю, что СИИ маловероятно будет устроен в точности как GPT-3; штука, которая нас всех убьёт, скорее будет чем-то, становящимся опаснее, если провернуть его рубильник, не чем-то, в чём в принципе нет рубильников, делающих это более опасным.

Консеквенциалистские цели против деонтологических целей

[Ngo][13:59]

Хм-м-м, окей. Давай быстренько вернёмся назад и подумаем, что полезного было в последние полчаса.

Я хочу отметить, что мои интуитивные рассуждения о ключевых действиях не очень конкретны; я довольно неуверен в том, как работает в такой ситуации геополитика, и в промежутке времени между СИИ-примерно-рядом-с-человеческим-уровнем и СИИ, предоставляющим экзистенциальные риски.

Так что мы можем продолжить обсуждать это, но я ожидаю, что буду часто говорить “ну, мы не можем исключить, что произойдёт X”, что, наверное, не самый продуктивный вид дискуссии.

Другой вариант – повкапываться в твои рассуждения о том, как работает мышление.

[Yudkowsky][14:03]

Ну, очевидно, в предельном случае, когда согласование недоступно нашей цивилизации, получится, что я успешно построил более благосклонную модель, всё же правильно отвергающую возможность успешного согласования для нашей цивилизации. В этом случае, я мог бы потратить короткий остаток своей жизни, споря с людьми, чьи модели достаточно благосклонны, чтобы включать невежество в какой-то области, из которой следует, что согласовать ничего не получится. Но предсказуемо именно так идут обсуждения на возможных мирах, где Земля обречена; так что кто-то помудрее на мета-уровне, будучи всё ещё невежественным на объектном уровне, предпочёл бы спросить: “Где, как ты думаешь, твоё знание, а не твоё невежество, говорит, что согласование должно быть осуществимым, и ты бы удивился, если бы оно не было?”.

[Ngo][14:07]

Справедливо. Хотя, кажется, концепция “ключевого действия” строится на обречённости по умолчанию.

[Yudkowsky][14:08]

Можно поговорить об этом, если тебе кажется, что это важно. Хотя я не думаю, что это обсуждение закончится за один день, так что, может, для удобства публикации нам стоит попробовать сфокусироваться на одной линии дискуссии?

Но мне кажется, что оптимизм многих людей основан на предположении, что мир можно спасти с помощью наименее опасных применений СИИ. Так что это большое ключевое расхождение в предпосылках.

[Ngo][14:09]

Согласен, что одна линия дискуссии лучше; готов сейчас принять концепцию ключевого действия.

Третий вариант в том, что я выскажу, как по-моему работает мышление, и посмотрим, насколько ты согласишься.

[Yudkowsky][14:12]

(Повторюсь, причина, по которой я не пишу “вот мои соображения, как работает мышление” в том, что прошлый опыт показал мне, что передача этой информации Другому Разуму, чтобы он мог её воспринять и ею оперировать, весьма сложна для моей текущей способности На Самом Деле Объяснять Что-Либо; такие вещи требуют долгих обсуждений и последующих домашних заданий, чтобы понять, как одна и та же структура возникает в разных случаях, в противоположность просто безрезультатному получению этого знания в готовом виде, и я пока не придумал подходящее домашнее задание.)

С радостью выслушаю твои заявления о мышлении и не соглашусь с ними.

[Ngo][14:12]

Отлично.

Окей, первое утверждение в том, что нечто вроде деонтологии – это довольно естественный способ работы разума.

[Yudkowsky][14:14]

(“Если бы это было так”, - подумал он, - “бюрократия и многотомные инструкции были бы куда эффективнее, чем на самом деле”)

[Ngo][14:14]

Хмм, наверно это была не лучшая формулировка, дай подумать, как сказать по другому.

Ладно, в нашей ранней дискуссии по email мы говорили о концепции “послушания”.

Мне кажется, что для разума столь же естественно иметь “послушание” в качестве приблизительной цели, как и максимизацию скрепок.

Если мы представим обучение агента на большом объёме данных, которые указывают в приблизительном направлении вознаграждения послушания, к примеру, то я представляю, что по умолчанию послушание будет ограничением, сравнимым с, скажем, человеческим инстинктом самосохранения.

(Который, очевидно, не настолько силён, чтобы остановить людей от кучи штук, которые ему противоречат – но всё равно это неплохое начало.)

[Yudkowsky][14:18]

Ха. Ты хотел сказать, сравнимым с человеческим инстинктом явной оптимизации совокупной генетической приспособленности?

[Ngo][14:19]

Генетическая приспособленность не была для наших предков понятной концепцией, так что, конечно, они не были направлены прямо на неё.

(И они не понимали, как её достичь)

[Yudkowsky][14:19]

Даже так, если ты не ожидаешь, вопреки общему мнению, что градиентный спуск будет работать совсем не так, как генная оптимизация, то суровая оптимизация X даст тебе лишь что-то, коррелировавшее с X в контексте обучения.

Это, конечно, одна из Больших Фундаментальных Проблем, которых я ожидаю в согласовании.

[Ngo][14:20]

Ладно, главный коррелят, обсуждения которого я встречал, это “делать то, что заставит человека поставить тебе высокую оценку, не то, чего он на самом деле хочет”

Мне любопытно, насколько ты обеспокоен этим конкретным коррелятом по сравнению с коррелятами в целом.

[Yudkowsky][14:21]

Ещё я вижу структурные причины, по которым натренировать на скрепки куда проще, чем на “послушание”. Даже если бы мы могли магически внушить простые внутренние желания, идеально отражающие простой внешний алгоритм, мы всё равно исполняем много отдельных экземпляров награждающей функции.

[Ngo][14:22]

Интересно было бы об этом послушать.

[Yudkowsky][14:22]

Ну, в первую очередь, почему книга с инструкциями настолько менее удобна и естественна, чем поведение охотника-собирателя?

ну знаешь, если деонтология столь же хороша, как консеквенциализм

(попробуешь ответить, или просто сказать?)

[Ngo][14:23]

Валяй

Мне, наверное, стоит прояснить, что я согласен, что нельзя просто заменить консеквенциализм деонтологией

Я скорее заявляю вот что: когда речь идёт о высокоуровневых концептах, мне не ясно, почему высокоуровневые консеквенциалистские цели естественнее высокоуровневых деонтологических целей.

[Yudkowsky][14:24]

Я отвечу, что реальность сложная, так что, когда ты пытаешься достичь в ней простой цели, ты получаешь сложное поведение. Если думать о реальности как о сложной функции Ввод->Вероятность(Вывод), то даже для простого Вывода, или простого набора Выводов, или высокого ожидаемого значения какой-нибудь простой функции от Вывода, может потребоваться очень сложный Ввод.

Люди не доверяют друг другу. Они представляют: “Ну, если я просто дам этому бюрократу цель, то он не будет честно рассуждать о том, чего будет стоить её достижение! О, нет! Потому, вместо этого, я, будучи аккуратным и достойным доверия человеком, сам придумаю ограничения и требования для действий бюрократа, такие, что я ожидаю, что, если он будет им следовать, результат его действий будет таким, как мне хочется.”

Но (в сравнении с сильным интеллектом, который наблюдает и моделирует сложную реальность и сам выбирает действия) действительно эффективная книга инструкций (исполняемая неким нечеловеческим разумом с достаточно большой и точной памятью, чтобы её запомнить) будет включать огромное (физически невозможное) количество правил “наблюдая то, делай это” для всех заковырок сложной реальности, которые можно выяснить из наблюдений.

[Ngo][14:28]

(Повторюсь, причина, по которой я не пишу “вот мои соображения как работает мышление” в том, что прошлый опыт показал мне, что передача этой информации Другому Разуму, чтобы он мог её воспринять и ею оперировать, весьма сложна для моей текущей способности На Самом Деле Объяснять Что-Либо; такие вещи требуют долгих обсуждений и последующих домашних заданий, чтобы понять, как одна и та же структура возникает в разных случаях, в противоположность просто безрезультатному получению этого знания в готовом виде, и я пока не придумал подходящее домашнее задание.)

(Отойдя от темы: нет хотя бы грубой оценки, когда твоя работа с Аджейей станет достоянием публики? Если ещё нескоро, то, может, полезно всё же выложить приблизительное описание этих соображений, пусть даже и в форме, в которой мало кто сможет их усвоить)

[Yudkowsky][14:30]

Готов поверить в полезность, но, наверное, не сегодня?

[Ngo][14:30]

Согласен.

[Yudkowsky][14:30]

(Мы сейчас заходим за установленное время, мне нормально, но у тебя 11:30 (вроде), так что прервёмся, когда скажешь.)

[Ngo][14:32]

Да, 11:30. Я думаю, лучше всего прерваться тут. Я согласен с тем, что ты сказал про сложность реальности и с тем, что поэтому консеквенциализм ценнее. Моё заявление про “деонтологию” (бывшее в изначальной формулировке слишком общим, приношу извинения за это) было призвано прощупать твои соображения о том, какие типы мышления естественны или неестественны. Мне кажется, мы много ходили кругами вокруг этой темы.

[Yudkowsky][14:33]

Ага, и возобновить, наверное, стоит с того, почему я считаю “послушание” неестественным по сравнению с “скрепками” концептом – хоть это, наверное, и потребует затронуть тему того, что стоит за поверхностными умениями.

[Ngo][14:34]

Верно. Я думаю, что даже расплывчатое указание на это было бы довольно полезным (если этого пока нет онлайн?)

[Yudkowsky][14:34]

Насколько я знаю, пока нет, и я не хочу перенаправлять тебя на материалы Аджейи, даже если её это устраивает, потому что в таком случае наше обсуждение будет лишено нужного контекста для других.

[Ngo][14:35]

С моей стороны, мне стоит больше подумать о конкретных ключевых действиях, которые я захочу защищать.

В любом случае, спасибо за дискуссию :)

Дай мне знать, если знаешь, когда лучше продолжить; иначе определим это потом.

[Soares][14:37]

(вы тут делаете за меня мою работу)

[Yudkowsky][14:37]

Можно во вторник в то же время – хотя я могу быть не в такой хорошей форме из-за диеты, но стоит попробовать.

[Soares][14:37]

(сойдёт)

[Ngo][14:39]

Вторник не идеален, другие варианты есть?

[Yudkowsky][14:39]

Среда?

[Ngo][14:40]

Да, среда подойдёт

[Yudkowsky][14:40]

Тогда ориентировочно так

[Soares][14:41]

Здорово! Спасибо за разговор.

[Ngo][14:41]

Спасибо!

[Yudkowsky][14:41]

Спасибо, Ричард!

Последующее

Резюмирование Ричарда Нго

[Tallinn][0:35] (6 сентября)

Застрял здесь и хочу поблагодарить Нейта, Элиезера и (особенно) Ричарда, что они это делают! Здорово увидеть модель Элиезера настолько подробно. Я узнал несколько новых штук (как то, что ограничение информации в генах может быть важным фактором в развитии человеческого разума). Стоит добавить, маленький комментарий по деонтологии (пока не забыл): мне кажется, деонтология больше про координацию, чем про оптимизацию: деонтологическим агентам проще доверять, потому что об их действиях куда проще рассуждать (так же, как функциональный/декларативный код проще анализировать, чем императивный). Потому вот мой сильнейший аргумент в пользу бюрократии (и социальных норм): люди просто (и правильно) предпочитают, чтобы другие оптимизаторы (в том числе нечеловеческие) были деонтологическими для лучшего доверия/координации, и согласны платить за это компетенцией.

[Ngo][3:10] (8 сентября)

Спасибо, Яан! Я согласен, что большее доверие – хорошая причина хотеть от агентов, чтобы они на некотором высоком уровне были деонтологическими.

Я попробую просуммировать основные затронутые штуки; комментарии приветствуются: [ссылка на GDocs]

[Ngo] (8 сентября Google Doc)

1-я дискуссия

(В основном обобщения, а не цитаты)

Элиезера, по описанию Ричарда: “Чтобы избежать катастрофы, те, кто первыми создадут СИИ, должны будут а) в какой-то мере его согласовать, б) решить не разгонять его до уровня, на котором их техники согласования перестанут работать, и в) исполнить какое-то ключевое действие, которое помешает всем остальным разогнать его до такого уровня. Но наши техники согласования не будут достаточно хороши наши техники согласования будут очень далеки от подходящих на нашей текущей траектории наши техники согласования будут очень далеки от подходящих для создания ИИ, который безопасно выполнит такое ключевое действие.”

[Yudkowsky][11:05] (8 сентября комментарий)

“не будут достаточно хороши”

Сейчас не на пути к тому, чтобы быть достаточно хорошими, с большим разрывом. “Не будут достаточно хороши” – это буквально объявление о намерении лечь и помереть.

[Yudkowsky][16:03] (9 сентября комментарий)

Будут очень далеки от подходящих

Та же проблема. Я не делаю безусловные предсказания о будущем провале, как предполагает слово “будут”. При условии текущего или соседних с ним курсов, мы будем на порядок отставать от уровня выживания, если не произойдёт какого-нибудь чуда. Но это не предопределено; это всё ещё результат того, что люди будут делать то, что они, кажется, делают, а не неизбежность.

[Ngo][5:10] (10 сентября комментарий)

А, вижу. Подойдёт ли добавление “на нашей текущей траектории”?

[Yudkowsky][10:46] (10 сентября комментарий)

Да.

[Ngo] (8 сентября Google Doc)

Ричард, по описанию Ричарда: «Рассмотрим ключевое действие “совершить прорыв в исследовании согласования”. Вероятно, до момента, когда СИИ будет сильно сверхчеловеческим в поиске власти, он будет уже некоторое время сильно сверхчеловеческим в понимании мира и в выполнении ключевых действий вроде исследования согласования, не требующих высокой агентности (под которой я примерно подразумеваю: наличие крупных мотиваций и способность следовать им долгие промежутки времени).»

Элизер, по описанию Ричарда: “Есть глубокая связь между решением интеллектуальных задач и захватом мира – решение задач требует, чтобы мощный разум думал об областях, которые, будучи понятыми, предоставляют опасные когнитивно-доступные стратегии. Даже математические исследования включают в себя задачу постановки и преследования инструментальных целей – и если мозг, эволюционировавший в саванне, может быстро научиться математике, то так же правдоподобно, что ИИ, натренированный на математику, может быстро выучить множество других навыков. Так как почти никто не понимает глубинное сходство мышления, необходиомого для разных задач, расстояние между ИИ, который может проводить научные исследования, и опасно агентным СИИ меньше, чем почти все ожидают.”

[Yudkowsky][11:05] (8 сентября комментарий)

Есть глубокая связь между решением интеллектуальных задач и захватом мира.

По умолчанию есть глубокая связь между обтачиванием каменных топоров и захватом мира, если научиться обтачивать топоры в очень общем виде. “Интеллектуальные” задачи в этом отношении ничем не отличаются. Может и можно избежать положения по умолчанию, но это потребует некоторой работы, и её надо будет выполнить до того, как более простые техники машинного обучения уничтожат мир.

[Ngo] (8 сентября Google Doc)

Ричард, по описанию Ричарда: “Наш недостаток понимания того, как работает интеллект, склоняет нас к предположению, что черты, совместно проявляющиеся у людей, также будут совместными у ИИ. Но человеческий мозг плохо оптимизирован для задач вроде научных исследований и хорошо оптимизирован для поиска власти в окружающем мире, по причине, в том числе:

а) эволюции в жестоком окружении;

б) ограничения пропускной способности генома;

в) социальном окружении, вознаграждающем стремление к власти.

Напротив, нейросети, натренированные на задачи вроде математических или научных исследований, куда меньше оптимизированы для стремления к власти. К примеру, GPT-3 обладает знаниями и способностями к рассуждениям, но при этом обладает низкой агентностью и теряет связность действий на больших промежутках времени.”

[Tallinn][4:19] (8 сентября комментарий)

[хорошо оптимизирован для] поиска власти

Можно посмотреть на межполовые различия (хоть и не хочется полагаться на Пинкера :))

[Yudkowsky][11:31] (8 сентября комментарий)

Я не думаю, что женская версия Элиезера Юдковского не пыталась бы спасти / оптимизировать / захватить мир. Мужчины могут делать это по глупым причинам; умные мужчины и женщины используют одинаковые рассуждения, если они достаточно умны. К примеру, Анна Саламон и многие другие.

[Ngo] (8 сентября Google Doc)

Элиезер, по описанию Ричарда: “Во-первых, есть большая разница между большинством научных исследований и таким родом ключевых действий, о которых мы говорим – тебе потребуется объяснить, как ИИ с тем или иным навыком можно на самом деле использовать, чтобы предотвратить создание опасного ИИ. Во-вторых, GPT-3 обладает низкой агентностью, потому что она запомнила множество поверхностных паттернов таким способом, который непосредственно не масштабируется до обобщённого интеллекта. Интеллект состоит из глубоких паттернов решения задач, что фундаментально связывает его с агентностью.”

Обсуждение 8 сентября

Байка про бразильский университет

[Yudkowsky][11:00]

(Я тут.)

[Ngo][11:01]

Тоже.

[Soares][11:01]

Добро пожаловать!

(Я, в основном, просто не буду мешать.)

[Ngo][11:02]

Круто. Элиезер, ты прочитал резюмирование – и, если да, согласен ли с ним в общих чертах?

Ещё я думал про лучший способ подобраться к твоим соображениям о мышлении. Мне кажется, что начинать с темы про послушание против скрепок, наверное, не так полезно, как с чего-то ещё – к примеру, с определения, которое ты выдал ближе к началу предыдущей дискуссии про «поиск состояний, получающих высокую оценку при скармливании их в функцию результатов, а затем в функцию оценки результатов».

[Yudkowsky][11:06]

Сделал пару комментариев про формулировки.

Итак, с моей перспективы, есть такая проблема, что… довольно сложно учить людей некоторым общим вещам, в противоположность более конкретным. Вроде как, когда пытаются создать вечный двигатель, и хоть ты и убедил их, что первый проект неправильный, они просто придумывают новый, и новый достаточно сложен, что ты не можешь их убедить, что они неправы, потому что они сделали более сложную ошибку и теперь не могут уследить за её обличением.

Учить людей смотреть на стоящую за чем-то структуру часто очень сложно. Ричард Фейнман приводил пример в истории про «Смотрите на воду!», где люди в классе научились тому, что «среда с индексом преломления» должна поляризовать свет, отражённый от неё, но не осознавали, что солнечный свет, отражённый от воды будет поляризован. Моя догадка, что правильно это делается с помощью домашних заданий, и, к сожалению, тут мы в той области, где у меня особый математический талант, также как, например, Марселло талантливее меня в формальном доказательстве теорем. И людям без этого особого таланта приходится делать куда больше упражнений, чем мне, и я не очень понимаю, какие именно упражнения надо им дать.

[Ngo][11:13]

Сочувствую этой проблеме, могу попробовать выйти из скептического спорящего режима и войти в обучащийся режим, если думаешь, что это поможет.

[Yudkowsky][11:14]

Есть общее озарение о коммутативности в арифметике, и некоторым людям достаточно показать, что 1 + 2 = 2 + 1, чтобы они сами обобщили за пределы единицы и двойки и любых других чисел, которые можно туда поместить, и поняли, что строку чисел можно перемешать, и это не поменяет их сумму. Кому-то ещё, обычно детям, нужно показать, как на стол кладут два яблока и одно яблоко в разном порядке, и получается одно и то же число, а потом показать ещё, скажем, сложение купюр разного достоинства, если они не обобщили с яблок на деньги. Я припоминаю, что, когда я был достаточно маленьким ребёнком, я пытался прибавить 3 к 5, считая «5, 6, 7», и думал, что есть достаточно умный способ получить 7, если хорошенько постараться.

Быть в состоянии увидеть «консеквенциализм» это, с моей перспективы, что-то похожее.

[Ngo][11:15]

Другая возможность: можешь ли ты проследить источники этого убеждения, как оно вывелось из предшествующих?

[Yudkowsky][11:15]

Я не знаю, какие упражнения задавать людям, чтобы они смогли увидеть «консеквенциализм» повсюду, а не изобретали немножко отличающиеся формы консеквенциалистского мышления и не заявляли: «Ну, вот это же не консеквенциализм, правильно?».

Формулировка «поиск состояний, получающих высокую оценку при скармливании их в функцию результатов, а затем в функцию оценки результатов» была одной из попыток описать опасную штуку достаточно абстрактным способом, чтобы у людей, может быть, лучше получилось её обобщить.

[Ngo][11:17]

Другая возможность: можешь описать ближайшую к настоящему консеквенциализму штуку в людях, и как мы её получили?

[Yudkowsky][11:18][11:21]

Ок, так, часть проблемы в том… что прежде, чем ты выполнил достаточно упражнений для своего уровня таланта (и я, однажды, был выполнившим слишком мало, чтобы не думать, что может быть умный способ сложить 3 и 5, чтобы получить 7), ты будешь склонен считать, что только очень жёсткая формальная описанная тебе штука – «настоящая».

С чего бы твой двигатель должен подчиняться законам термодинамики. Это же не один из тех двигателей Карно из учебника!

В людях есть фрагменты консеквенциализма, или кусочки, чьё взаимодействие порождает частично неидеальное подобие консеквенциализма, и критично увидеть, что «выводы» людей в некотором смысле «работают» потому, что они подобны консеквенциалистским, и только пока это так.

Помести человека в одну среду, и он раздобудет еду. Помести человека в другую среду, и он опять раздобудет еду. Вау, разные изначальные условия, но один результат! Должно быть, внутри человека есть штуки, которые, что бы они ещё не делали, заодно эффективно ищут, какие моторные сигналы приведут в итоге к получению еды!

[Ngo][11:20]

Ощущается, что ты пытаешься вытолкнуть меня (и любого, кто будет это читать) из конкретного заблуждения. Догадываюсь, что из какого-то вроде «Я понимаю, что Элиезер говорит, так что теперь я вправе с этим не согласиться» или, может «Объяснения Элиезера не кажутся мне осмысленными, так что я вправе считать, что его концепции не осмысленны». Правильно?

[Yudkowsky][11:22]

Скорее… с моей точки зрения, даже после того, как я разубеждаю людей в возможности одного конкретного вечного двигателя, они просто пытаются придумать более сложный вечный двигатель.

И я не уверен, что с этим делать; это, кажется, происходит уже очень долго.

В конце концов, многое, что люди извлекают из моих текстов – это не глубокие принципы объектного уровня, на которые я пытался указать; они не понимают, скажем, байесианство как термодинамику, не начинают видеть байесовские структуры каждый раз, когда кто-нибудь видит что-то и меняет своё убеждение. Вместо этого они получают что-то более метауровневое, более обобщённое, приблизительный дух того, как рассуждать и спорить, потому что они потратили много времени под воздействием именно этого снова, и снова, и снова, на протяжении многих постов в блоге.

Может, нет способа заставить кого-то понять, почему исправимость неестественна, кроме как много раз проводить этого кого-то через задачу попробовать изобрести структуру агента, который позволяет тебе нажать кнопку выключения (но не пытается заставить тебя нажать кнопку выключения), и показывать, как каждая попытка проваливается. А потом ещё демонстрировать, почему попытка Стюарта Расселла с моральной неуверенностью порождает проблему полностью обновлённого (не-)уважения; и надеяться, что это приведёт к пониманию общего паттерна того, почему исправимость в целом противоречит структуре штук, которые хороши в оптимизации.

Только вот чтобы нормально делать упражнения, это надо делать из модели ожидаемой полезности. И тогда тебе просто скажут: «А, ну ладно, тогда я просто создам агента, который хорош в оптимизации, но не использует эти явные ожидаемые полезности, из-за которых все проблемы!»

И получается, если я хочу, чтобы кто-то поверил в те вещи, в которые верю я, по тем же причинам, что и я, мне придётся научить их, почему некоторые структуры мышления – это действительно неотъемлемые части агента, который хорошо что-то делает, а не конкретная формальная штука, предназначенная для манипуляции бессмысленными числами, а не существующими в реальном мире яблоками.

И я пару раз пытался написать об этом (к примеру «последовательные решения подразумевают непротиворечивую полезность»), но этого оказалось недостаточно, потому что люди не решали на дому даже столько же задач, сколько я, а пришлось бы больше, потому что это именно та конкретная область, в которой я талантлив.

Я не знаю, как решить эту проблему, поэтому я отступил на мета-уровень, чтобы говорить о ней.

[Ngo][11:30]

Я вспомнил о посте на LW, который назывался «Напиши тысячу дорог в Рим», емнип, он агитировал пытаться объяснять одно и то же как можно большим числом способов, в надежде, чтобы один из них сработал.

[Soares][11:31]

(Предложение, не обязательно хорошее: обозначив проблему на мета-уровне, попытаться обсуждать объектный уровень, отмечая проявления проблемы, когда они будут всплывать.)

[Ngo][11:31]

Поддерживаю предложение Нейта.

И буду пытаться держать в голове сложность метауровневой проблемы и отвечать соответственно.

[Yudkowsky][11:33]

Наверно, предложение Нейта правильное. Я напрямую высказал проблему, потому что иногда если тебе говорят о мета-проблеме, это помогает с объектным уровнем. Кажется, это помогает мне довольно сильно, а другим не так сильно, но всё же многим как-то помогает.

Мозговые функции и помпы исходов

[Yudkowsky][11:34]

Итак, есть ли у тебя конкретные вопросы про ищущее вводы мышление? Я попытался рассказать, почему я это упомянул (это другая дорога к Риму «консеквенциализма»).

[Ngo][11:36]

Сейчас посмотрим. Зрительная кора даёт нам впечатляющий пример мышления в людях и многих других животных. Но я бы назвал это «распознаванием паттернов», а не «поиском высокоцениваемых результатов».

[Yudkowsky][11:37]

Ага! И не совпадение, что нет животных, состоящих исключительно из зрительной коры!

[Ngo][11:37]

Окей, круто. Так ты согласишься, что зрительная кора делает что-то качественно иное, чем животное в целом.

Тогда другой вопрос: можешь ли ты охарактеризовать поиск высокооцениваемых результатов в животных (не в человеке)? Делают ли они это? Или это в основном про людей и СИИ?

[Yudkowsky][11:39]

К моменту, когда появляются височные доли или что-то подобное, внутри должно происходить достаточное количество чего-то вроде «что я такое вижу, что выдаёт мне такую картинку?» – это поиск правдоподобных вариантов в пространстве гипотез. И на человеческом уровне люди уже думают: «Могу ли я видеть это? Нет, у этой теории есть такая-то проблема. Как я могу её исправить?». Но правдоподобно, что у обезьяны нет низкоуровневого аналога этого; и ещё правдоподобнее, что части зрительной коры, которые делают что-то такое, делают это относительно локально и уж точно только в очень конкретной узкой области.

О, ещё есть мозжечок и моторная кора и всё такое, если мы говорим, скажем, о кошке. Им надо искать планы действий, которые приведут к поимке мыши.

Только то, что зрительная кора (очевидно) не выполняет поиск, не значит, что он не происходит где-то ещё в животном.

(На метауровне я заметил, что думаю «Но как ты можешь не видеть этого, просто смотря на кошку?», интересно, какие упражнения нужны, чтобы этому научиться.)

[Ngo][11:41]

Ну, смотря на кошку, я вижу что-то, но я не знаю, насколько хорошо оно соответствует твоим концептам. Так что просто помедленнее пока.

Кстати, мне интуитивно кажется, что моторная кора в каком-то смысле делает что-то похожее на зрительную – только наоборот. То есть вместо принимания низкоуровневых вводов и выдачи высокоуровневых выводов, она принимает высокоуровневые вводы и выдаёт низкоуровневые выводы. Согласишься ли ты с этим?

[Yudkowsky][11:43]

Это не интерпретируется напрямую в мою онтологию, потому что (а) я не знаю, что ты имеешь в виду под «высоким уровнем» и (б) картезианских агентов в целом можно рассматривать как функции, что не означает, что их можно рассматривать как не выполняющих поиск распознавателей паттернов.

С учётом этого, все части коры имеют на удивление схожую морфологию, так что не было бы особо удивительно, если бы моторная кора делала что-то похожее на зрительную. (А вот мозжечок…)

[Ngo][11:44]

Сигнал из зрительной коры, сообщающий «это кошка» и сигнал, входящий в моторную кору, сообщающий «возьми эту чашку» – это то, что я называю высокоуровневым.

[Yudkowsky][11:45]

Всё ещё не естественное разделение в моей онтологии, но есть неформальная штука, на которую это смахивает, так что, надеюсь, я могу принять и использовать это.

[Ngo][11:45]

Активация клеток сетчатки и активация моторных нейронов – это низкоуровневое.

Круто. Так, в первом приближении, мы можем думать о происходящем между тем, как кошка распознаёт мышь и тем, как моторная кора кошки производит конкретные сигналы, необходимые для поимки мыши, как о той части, где происходит консеквенциализм?

[Yudkowsky][11:49]

Весь агент-кошка находится между глазами кошки, которые видят мышь, и лапами кошки, двигающимися, чтобы поймать мышь. Агент-кошка, безусловно, является зачатком консеквенциалиста / ищет мышеловительные моторные паттерны / получает высоко оцениваемые конечные результаты, даже при изменении окружения.

Зрительная кора – это конкретная часть этой системы-рассматриваемой-как-однонаправленная-функция; эта часть, предположительно, без уверенности, не особо что-то ищет, или осуществляет только поиск в маленькой локальной очень конкретной области, не направленный сам по себе на поимку мыши; по своей природе эпистемический, а не планирующий.

С некоторой точки зрения можно заявить «ну, большая часть консеквенциализма происходит в оставшейся кошке, уже после того, как зрительная кора послала сигналы дальше». И это в целом опасный настрой рассуждений, склонный к провалам в духе безуспешного исследования каждого нейрона на наличие консеквенциализма; но в данном конкретном случае, есть значительно более консеквенциалистские части кошки, чем зрительная кора, так что я не буду против.

[Ngo][11:50]

А, более конкретная штука, которую я имел в виду: большая часть консеквенциализма находится строго между зрительной корой и моторной корой. Согласен/Не согласен?

[Yudkowsky][11:51]

Не согласен, мои знания нейроанатомии несколько устарели, но, мне кажется, моторная кора может посылать сигналы мозжечку.

(Я, может, ещё не соглашусь с глубинным смыслом, на который ты пытаешься указать, так что, наверное, проблема не решится просто через «ладно, включим ещё мозжечок», но, наверное, стоит сначала дать тебе ответить.)

[Ngo][11:53]

Я недостаточно разбираюсь в нейроанатомии, чтобы уточнять на этом уровне, так что я хотел попробовать другой подход.

Но, на самом деле, может, проще заявить «ладно, включим ещё мозжечок» и посмотреть, куда, по-твоему, приведёт нас несогласие.

[Yudkowsky][11:56]

Так как кошки (очевидно) (насколько я читал) не являются универсальными консеквенциалистами с воображением, то их консеквенциализм состоит из мелких кусочков, вложенных в них более чисто псевдо-консеквенциалистской петлёй генетической оптимизации, которая их создала.

У не поймавшей мышь кошки могут подправиться мелкие кусочки мозга.

И потом эти подправленные кусочки занимаются анализом паттернов.

Почему этот анализ паттернов без очевидного элемента поиска в итоге указывает в одном и том же направлении поимки мыши? Из-за прошлой истории анализов и поправок, направленных на поимку.

Получается, что сложно указать на «консеквенциалистские части кошки», посмотрев, какие части её мозга совершают поиск. Но с учётом этого, пока зрительная кора не поправляется при провале поимки мыши, она не входит в консеквенциалистскую петлю.

И да, это относится и к людям, но люди также делают и более явные поисковые штуки, и это часть причин, почему у людей есть ракеты, а у кошек нет.

[Ngo][12:00]

Окей, это интересно. То есть в биологических агентах три уровня консеквенциализма: эволюция, обучение с подкреплением и планирование.

[Yudkowsky][12:01]

В биологических агентах есть эволюция + локальные эволюционировавшие правила, в прошлом увеличивавшие генетическую приспособленность. Два вида таких локальных правил – это «оперантное обусловливание от успеха или провала» и «поиск среди визуализированных планов». Я бы не называл эти два вида правил «уровнями».

[Ngo][12:02]

Окей, понял. И когда ты говоришь о поиске среди визуализированных планов (так, как делают люди), то что значит, что это «поиск»?

К примеру, если я представляю, как пишу стихотворение строку за строкой, то я могу планировать только на несколько слов вперёд. Но каким-то образом стихотворение в целом, может быть довольно длинное, получается высокооптимизированным. Это типичный пример планирования?

[Yudkowsky][12:04][12:07]

Планирование – это один из способов преуспеть в поиске. Думаю, что, чтобы понять сложность согласования, лучше думать на том уровне абстракции, на котором видно, что в каком-то смысле опасность исходит от самого достаточно мощного поиска, а не от деталей процесса планирования.

Одним из ранних способов успешного обобщения моего представления об интеллекте, позже сформулированного как «вычислительно-эффективный поиск действий, приводящих к результатам, стоящим высоко в порядке предпочтений», была (неопубликованная) история о путешествиях во времени в глобально непротиворечивой вселенной.

Требование глобальной непротиворечивости означает, что все события между началом и концом Парадокса должны отображать исходные условия Парадокса в конечную точку, которая создаст эти же самые исходные условия в прошлом. Оно задаёт сильные и сложные ограничения на реальность, которые Парадокс должен соблюсти, используя свои исходные условия. Путешественник во времени должен пройти через определённый опыт, вызывающий состояние разума, в котором он совершит действия, которые подтолкнут прошлого его к получению того же опыта.

Парадокс в итоге, к примеру, убил создателей машины времени, потому что иначе они бы не позволили путешественнику вернуться во времени, или как-нибудь ещё не позволили бы временной петле сойтись, если бы были живы.

Для обобщения понятия мощной консеквенциалистской оптимизации мне было недостаточно всего двух примеров – человеческого интеллекта и эволюционной биологии. Иметь три примера – это было одно из упражнений, над которыми я работал – и с людьми, эволюцией и вымышленным Парадоксом у меня наконец «щёлкнуло».

[Ngo][12:07]

Хмм. Для меня, одна из специфических черт поиска – это рассмотрение множества возможностей. Но в примере стихотворения, я могу явно рассмотреть не так много вариантов, потому что я заглядываю вперёд только на несколько слов. Это кажется похожим на проведённое Абрамом разделение между отбором и контролем (https://www.alignmentforum.org/posts/ZDZmopKquzHYPRNxq/selection-vs-control). Разделяешь ли ты их так же? Или «контроль» системы (например, футболист, ведущий мяч по полю) в твоей онтологии тоже считается за поиск?

[Yudkowsky][12:10][12:11]

Я ещё попытаюсь говорить людям «представьте, что максимизатор скрепок – это вообще не разум, представьте, что это что-то вроде неисправной машины времени, которая выдаёт результаты, приводящие к существованию большего количества скрепок в итоге». Я не думаю, что это щёлкнет, потому что люди не выполняли тех же упражнений, что и я, и не испытывали того же «Ага!» при осознании того, как заметить часть самой концепции и опасности интеллекта в таких чисто материальных терминах.

Но конвергентные инструментальные стратегии, антиисправимость, эти штуки исходят из истинного факта о вселенной, заключающегося в том, что некоторые выводы машины времени на самом деле приведут к созданию большего количества скрепок в итоге. Опасность исходит не из деталей процесса поиска, а просто из того, что он достаточно сильный и эффективный. Опасность в самой территории, не просто в какой-то причудливой её карте; то, что создание наномашин, которые убьют программистов, приведёт к созданию большего количества скрепок – это факт про реальность, не про максимизатора скрепок!

[Ngo][12:11]

Ладно, я вспомнил про очень похожую идею в твоём тексте про Помпу Исходов (Скрытая сложность желаний).

[Yudkowsky][12:12]

Ага! Правда, история писалась в 2002-2003, когда я писал хуже, так что настоящий рассказ про Помпу Исходов никогда не был опубликован.

[Ngo][12:14]

Окей, тогда, думаю, естественный следующий вопрос: почему ты думаешь, что сильный эффективный поиск вряд ли будет как-нибудь ограничен или сдержан?

Что в поисковых процессах (как человеческий мозг) делает сложным их обучение с слепыми пятнами, деонтологическими указаниями, или чем-то в таком роде?

Хммм, это ощущается как вопрос, ответ на который я могу предсказать. (А может и нет, я не ожидал путешествий во времени.)

[Yudkowsky][12:15]

В каком-то смысле, они ограничены! Максимизирующий скрепки суперинтеллект и близко не так могущественен, как максимизирующая скрепки машина времени. Машина времени может делать что-то эквивалентное покупке лотерейных билетов из термодинамически рандомизированных лотерейных машин; суперинтеллект – нет, по крайней мере, без того, чтобы напрямую обдурить лотерею, или чего-то такого.

Но максимизирующий скрепки сильный обобщённый суперинтеллект эпистемологически и инструментально эффективен по сравнению с тобой, или со мной. Каждый раз, когда мы видим, что он может получить как минимум X скрепок, сделав Y, нам следует ожидать, что он получит X или больше скрепок, сделав Y или что-то, что приведёт к получению ещё большего количества скрепок, потому что он не пропустит стратегию, которую мы видим.

Обычно, когда мы представляем, что бы делал максимизатор скрепок, наш мозг представляет его несколько глупым, этого ограничения можно избежать, спрашивая себя, как бы скрепки получала машина времени, какого количества скрепок можно добиться в принципе и как. Рассказывать людям о машине времени вместо суперинтеллекта имеет смысл в частности затем, чтобы преодолеть представление о суперинтеллекте как о чём-то глупом. Это, конечно, не сработало, но попытаться стоило.

Я не думаю, что это в точности то, о чём ты спрашивал, но я хочу дать тебе возможность переформулировать что-нибудь прежде, чем я попытаюсь ответить на твои переформулированные мной вопросы.

[Ngo][12:20]

Ага, я думаю, то, что я хотел спросить – это что-то такое: почему нам следует ожидать, что из всего пространства возможных разумов, созданных оптимизационными алгоритмами, сильные обобщённые суперинтеллекты встречаются чаще, чем другие типы агентов, высокооцениваемых нашими обучающими функциями?

[Yudkowsky][12:20][12:23][12:24]

Это зависит от того, насколько сильно оптимизировать! И может ли градиентный спуск на конкретной системе оптимизировать достаточно сильно! Многие нынешние ИИ обучены градиентным спуском и всё ещё вовсе не стали суперинтеллектами.

Но ответ в том, что некоторые задачи сложны, и требуют решения множества подзадач, и простой способ решения всех этих подзадач – это использование перекрывающихся совместимых паттернов, обобщающихся по всем подзадачам. Чаще всего поиск будет натыкаться на что-то такое до того, как наткнётся на отдельные решения всех этих задач.

Я подозреваю, что этого нельзя достичь не очень большим градиентным спуском на мелкомасштабных трансформерах, так что я считаю, что GPT-N не достигнет суперинтеллектуальности до того, как мир закончат по-другому выглядящие системы, но я могу ошибаться.

[Ngo][12:22][12:23]

Предположим, мы достаточно сильно оптимизировали, чтобы получить эпистемическую подсистему, которая может планировать куда лучше любого человека.

Догадываюсь, что ты скажешь, что это возможно, но куда вероятнее сначала получить консеквенциалистского агента, который будет это делать (чем чисто эпистемического).

[Yudkowsky][12:24]

Я озадачен тем, что, по-твоему, значит иметь «эпистемическую подсистему», которая «может планировать лучше любого человека». Если она ищет пути во времени и выбирает высокооцениваемые для вывода, что делает её «эпистемической»?

[Ngo][12:25]

Предположим, например, что она не исполняет планы сама, только записывает их для людей.

[Yudkowsky][12:25]

Если она фактически может делать то же, что и скрепочная машина времени, как называние её «эпистемической» или как-то ещё делает её безопаснее?

По какому критерию она выбирает планы, на которые посмотрят люди?

Почему имеет значение, что её вывод пройдёт через причинно-следственные системы, называемые людьми, прежде чем попадёт в причинно-следственные системы, называемые синтезаторами белков, или Интернет, или ещё как-то? Если мы создали суперинтеллект для проектирования наномашин, нет очевидной разницы, посылает ли она строки ДНК сразу в синтезатор белков, или сначала люди читают её вывод и вручную перепечатывают его. Предположительно, ты тоже не думаешь, что безопасность исходит из этого. Тогда откуда?

(замечу: через две минуты у меня время полдника, предлагаю продолжить через 30 минут после этого)

[Ngo][12:28]

(перерыв на полчаса звучит неплохо)

Если мы рассмотрим зрительную кору в конкретный момент времени, как она решает, какие объекты распознавать?

Если зрительная кора может быть не-консеквенциалистской в том, какие объекты распознавать, почему планирующая система не может быть не-консеквенциалистской в том, какие планы выдавать?

[Yudkowsky][12:32]

Мне это кажется чем-то вроде очередного «смотрите на воду», предскажешь, что я скажу дальше?

[Ngo][12:34]

Предсказываю, что ты скажешь, что-то вроде этого: чтобы получить агента, который может создавать очень хорошие планы, надо применить на нём мощную оптимизацию. И если мы оптимизируем его через канал «оцениваем его планы», то у нас нет способа удостовериться, что агент действительно оптимизировался для создания по-настоящему хороших планов, а не для создания планов, которые получают хорошую оценку.

[Soares][12:35]

Кажется неплохим клиффхенгером?

[Ngo][12:35]

Ага.

[Soares][12:35]

Здорово. Давайте продолжим через 30 минут.

Гипотетически-планирующие системы, наносистемы и эволюционирование обобщения

[Yudkowsky][13:03][13:11]

Так, ответ, который ты от меня ожидал, в переводе на мои термины – это «Если ты совершаешь отбор для того, чтобы люди тыкнули «одобрить», прочитав план, то ты всё ещё исследуешь пространство вводов в поисках путей во времени к вероятным исходам (конкретно, к тому, что человек нажмёт «одобрить»), так что это всё ещё консеквенциализм.»

Но допустим, что у тебя получилось этого избежать. Допустим, ты получил именно то, чего хотел. Тогда система всё ещё выдаёт планы, которые, когда люди им следуют, идут по пути во времени к исходам, которые высоко оцениваются какой-то функцией.

Мой ответ: «Какого чёрта значит для планирующей системы быть не-консеквенциалистской? Это как не мокрая вода! Консеквенциалист – это не система, выполняющая работу, это сама работа! Можно представить, как её выполняет не мыслящая система вроде машины времени, и консеквенциализм никуда не денется, потому что вывод – это план, путь во времени!»

И это в самом деле такой случай, когда я чувствую чувство беспомощности от того, что я не знаю, как можно переформулировать, какие упражнения надо кому-то дать, через какой вымышленный опыт провести, чтобы этот кто-то начал смотреть на воду и видеть материал с индексом преломления, начал смотреть на фразу «почему планирующая система не может не быть консеквенциалистской по поводу того, какой план выдавать» и думать «Чёёё».

Мой воображаемый слушатель теперь говорит: «Но что, если наши планы не приводят к результатам, высоко оцениваемым какой-то функцией?», и я отвечаю: «Тогда ты лежишь на земле, хаотично дёргаясь, потому что если ты хотел какой-то другой результат больше, это значит, что ты предпочитал его выводу случайных моторных сигналов, что означает оптимизацию значения функции предпочтений, что, в свою очередь, означает выбор пути во времени, который скорее ведёт в определённом направлении, чем к случайному шуму.»

[Ngo][13:09][13:11]

Ага, это звучит как хороший пример той штуки, которую ты пытался объяснить в начале.

Всё ещё кажется, что здесь есть какое-то разделение по уровням, давай попробую поиграться с этим ощущением.

Окей, допустим, у меня есть планирующая система, которая для данной ситуации и цели выдаёт план, ведущий от ситуации к цели.

И допустим, что в качестве ввода мы ей даём ситуацию, в которой на самом деле не находимся, и она выдаёт соответствующий план.

Мне кажется, что есть разница между тем, как система является консеквенсциалистской, потому что создаёт консеквенциалистские планы (то есть, планы, которые, будучи применёнными в ситуации из ввода, привели бы к достижению некой цели), и другим гипотетическим агентом, который просто напрямую пытается достигать целей в ситуации, в которой на самом деле находится.

[Yudkowsky][13:18]

Для начала скажу, что если получится создать такую систему, чьё описание вполне осмысленно (мне кажется), то это, возможно, обеспечило бы некоторый запас безопасности. Она была бы заметно менее (хоть и всё ещё) опасной. Это потребовало бы неких структурных свойств, которые не факт, что можно получить просто градиентным спуском. Точно так же как естественный отбор по генетической приспособленности не даёт тебе явных оптимизаторов этой приспособленности, можно оптимизировать планирование в гипотетических ситуациях и получить что-то, что явно заботится не только строго о гипотетических ситуациях. Но это вполне последовательная концепция, и тот факт, что система не будет оптимизировать нашу вселенную, может сделать её безопаснее.

Сказав это, теперь я обеспокоюсь, что кто-то может подумать, что от того, что агент решает «гипотетические» задачи, возникает некая ключевая разница в агентности, в наличии или отсутствии чего-то, ассоциируемого с индивидуальностью, представлением целей и мотивацией. Если ты возьмёшь такого планировщика и дашь ему реальный мир в качестве гипотетического, та-да, теперь это старый добрый опасный консеквенциалист, которого мы представляли раньше, безо всяких изменений психологической агентности, «заботы» о чём-то или чего-то ещё такого.

Так что, думаю, важным упражнением было бы что-то вроде «Представь выглядящую безопасной систему, рассматривающую только гипотетические задачи. Теперь представь, что если ты возьмёшь это систему, и скармливаешь ей настоящие задачи, то она станет очень опасной. Теперь помедитируй над этим, пока не увидишь, что гипотетический планировщик очень-очень близок к более опасной версии себя, латентно имеет все его опасные свойства, и, вероятно, кучу уже опасных свойств тоже.»

«Видишь, ты думал, что источник опасности в внутреннем свойстве обращения внимания на реальный мир, но он не там, он в структуре планирования!»

[Ngo][13:22]

Я думаю, мы теперь ближе к тому, чтобы быть на одной волне.

Давай ещё немного посмотрим на такого гипотетического планировщика. Предположим, что он был обучен, чтобы минимизировать, скажем, враждебную составляющую его планов.

К примеру, его планы сильно регуляризованы, так что проходят только грубые общие детали.

Хмм, сложновато это описывать, но по сути мне кажется, что в таком сценарии есть компонент плана, кооперативный с его исполнителями, а есть враждебный.

И я согласен, что между ними нет никакой фундаментальной разницы.

[Yudkowsky][13:27]

«Что, если у зелья, которое мы варим, есть Хорошая Часть и Плохая Часть, и мы можем оставить только Хорошую…»

[Ngo][13:27]

Я не считаю, что они разделимы. Но, в некоторых случаях, можно ожидать, что одна часть будет куда больше другой.

[Soares][13:29]

(Моя модель других слушателей сейчас протестует «всё ещё есть разница между гипотетическим планировщиком, применённым к реальным задачам, и Большим Страшным Консеквенциалистом, она в том, что гипотетический планировщик выдаёт описания планов, которые работали бы, если их исполнить, тогда как большой страшный консеквенциалист исполняет их напрямую.»)

(Не уверен, что это полезно обсудить, или что это поможет Ричарду формулировать, но это как минимум то, что я ожидаю, будут думать некоторые читатели, если/когда это будет опубликовано.)

[Yudkowsky][13:30]

(Разница есть! Суть в осознании того, что гипотетический планировщик на расстоянии одной строки внешнего кода от того, чтобы стать Большой Страшной Штукой, так что стоит ожидать, что он тоже много как будет Большим и Страшным.)

[Ngo][13:31]

Мне кажется, что позиция Элиезера примерно такая: «на самом деле, почти что никакие режимы обучения не предоставят нам агентов, которые, определяя, какой план выдать, будут тратить почти всё своё время, думая над задачей объектного уровня, и очень мало времени о том, как манипулировать людьми, которым выдан план.»

[Yudkowsky][13:32]

Моя позиция в том, что у ИИ нет аккуратного разделения внутренних процессов на Части, Которые Ты Считаешь Хорошими и Части, Которые Ты Считаешь Плохими, потому что это отчётливое на твоей карте разделение, вовсе не отчётливо на карте ИИ.

С точки зрения максимизирующей-скрепки-выводящей-действия-машины-времени её действия не делятся на «создание скрепок на объектном уровне» и «манипуляция людьми рядом с машиной времени, чтобы обмануть их по поводу того, что она делает», они все просто физические выводы, проходящие сквозь время и приводящие к скрепкам.

[Ngo][13:34]

Ага, Нейт, это хороший способ сформулировать один из моих аргументов. И я согласен с Элиезером, что эти штуки могут быть очень похожими. Но я заявляю, что в некоторых случаях они могут быть и довольно отличающимися – к примеру, когда мы обучаем агента выдавать только короткое высокоуровневое описание плана.

[Yudkowsky][13:35]

Опасность в том, какую работу совершит агент, чтобы составить план. Я могу, к примеру, создать агента, который очень безопасно выдаёт высокоуровневый план по спасению мира:

echo «Эй, Ричард, спаси мир! «

Так что мне придётся спросить, какого вида «высокоуровневые» выводы планов для спасения мира ты предлагаешь, и почему сложно просто составить такой самим прямо сейчас, раз уж люди могут ему следовать. Тогда я посмотрю на ту часть, которую сложно придумать самим, и скажу, что вот тут для изобретения высокоуровневого плана агент должен понимать множество сложных штук о реальности и уметь точно прокладывать пути через время в области этих сложных штук; следовательно, он будет очень опасен, если он не прокладывает их в точности туда, куда ты надеешься. Или, как вариант, скажу: «Этот план не может спасти мир: тут недостаточно суперинтеллекта, чтобы он был опасен, но одновременно с этим недостаточно суперинтеллекта, чтобы опрокинуть игровую доску нынешнего очень обречённого мира.»

[Ngo][13:39]

Прямо сейчас я не представляю конкретного вывода планов для спасения мира, я просто пытаюсь лучше прояснить проблему консеквенциализма.

[Yudkowsky][13:40]

Смотри на воду; опасен не путь, которым ты хочешь выполнить работу, опасна сама работа. Что именно ты пытаешься сделать, неважно, как именно?

[Ngo][13:41]

Думаю, я соглашусь, что наши нынешние ограничения способностей не позволяют нам сказать многое о том, как работа будет выполняться, так что нам приходится в основном рассуждать о самой работе.

Но я тут говорю только про системы, которые достаточно умны, чтобы составлять планы и проводить исследования, находящиеся за пределами возможностей человечества.

И вопрос такой: можем ли мы подправить способ, которым работают такие системы, чтобы они тратили 99% своего времени на попытки решить задачу объектного уровня, и 1% времени на попытки манипулировать людьми, которые получат план? (Хоть это и не фундаментальные категории для ИИ, лишь грубая категоризация, возникающая из того, как мы его обучили – так же как «двигаться» и «думать» – это не фундаментально различные категории действий для людей, но то, как мы эволюционировали привело к значительному их разделению.)

[Soares][13:43]

(Я подозреваю, что Элиезер не имеет в виду «нам остаётся лишь рассуждать о самой работе, а не способах, которыми она будет выполняться, потому что наших способностей недостаточно для этого». Подозреваю недопонимание. Может быть, Ричарду стоит попытаться перефразировать аргумент Элиезера?)

(Однако, думаю, если Элиезер ответит на аргумент про 99%/1% – это тоже может всё прояснить.)

[Yudkowsky][13:46]

Ну, для начала, замечу, что система, проектирующая наносистемы, и тратящая 1% своего времени, раздумывая, как убить её операторов, смертельна. Это должна быть настолько маленькая доля мыслей, чтобы она никогда не закончила целую мысль «Если я сделаю X, это убьёт операторов.»

[Ngo][13:46]

Спасибо, Нейт. Я попробую перефразировать аргумент Элиезера.

Позиция Элизера (частично в моей терминологии): мы создадим ИИ, который может выполнять очень сложные мыслительные задачи, которые мы можем грубо описать как «искать среди множества вариантов тот, который будет удовлетворять нашим критериям.» ИИ, который может решить эти сложные задачи, должен будет уметь выполнять очень гибкий и обобщённый поиск, так что его будет очень сложно ограничить конкретной областью.

Хмм, это ощущается очень общим описанием, сейчас подумаю о его более конкретных заявлениях.

[Yudkowsky][13:54]

ИИ, который может решить эти сложные задачи, должен будет

Очень-очень мало что в пространстве устройства ИИ универсально необходимо. Первый ИИ, которого сможет создать наша технология, наверняка будет действовать некоторыми проще достижимыми и проще устроенными способами.

[Ngo][13:55]

Принято; спасибо за поимку этой неточности (тут и ранее).

[Yudkowsky][13:56]

Можно ли, в принципе, создать водителя-красных-машин, который совершенно неспособен водить синие машины? В принципе – конечно! Но первый водитель-красных-машин, на которого наткнётся градиентный спуск, наверняка будет и водителем-синих-машин.

[Ngo][13:57]

Элиезер, любопытно, в какой мере наше несогласие исходит из разного мнения о человеческом уровне.

Или, по-другому: мы и сейчас можем создавать системы, которые превосходят людей в некоторых задачах, но не имеют достаточно общих способностей поиска, чтобы даже попытаться захватить мир.

[Yudkowsky][13:58]

Несомненно, это так.

[Ngo][13:59]

Отставив в сторону ненадолго вопрос о ключевых действиях для спасения мира, какая часть твоей модели проводит линию между игроками в шахматы человеческого уровня и колонизаторами галактики человеческого уровня?

И говорит, что мы в состоянии согласовать до того, как они захватят мир, тех, которые превосходят нас на одних задачах, но не на других.

[Yudkowsky][13:59][14:01]

Тут нет очень простого ответа, но один из аспектов – это обобщённость между областями, которая достигается через изучение новых областей.

Люди, заметим, не были агрессивно оптимизированы естественным отбором для дыхания под водой и полётов в космос. Нет явного внешнего знака, что естественный отбор создал этих существ более обобщённо-способными, чем шимпанзе, обучая их на более широком наборе окружений и функций оценки.

[Soares][14:00]

(Прежде чем мы уйдём слишком далеко: спасибо за резюмирование! Мне кажется, это хорошо, я уверился в отсутствии ошибки взаимопонимания.)

[Ngo][14:03]

(Рад слышать, спасибо, что присматриваешь. Для ясности, я не интерпретировал слова Элиезера так, будто он заявляет исключительно об ограничении способностей; просто мне показалось, что он думает о значительно более продвинутых ИИ, чем я. Думаю, я плохо сформулировал.)

[Yudkowsky][14:05][14:10]

Есть затруднительные аспекты этой истории с естественным отбором, про который можно метафорически сказать, что он «понятия не имел, что делает». К примеру, после того, как ранний взлёт интеллекта, возможно, был вызван половым отбором по аккуратно обколотым топорам или чему-то такому, накопившаяся оптимизация мозга шимпанзе дошла до точки, где внезапно от сравнительного интеллекта стала сильно (сильнее, чем у шимпанзе) зависеть способность к составлению коварных планов против других людей – подзадача оптимизации генетической приспособленности. Так что продолжение оптимизации «совокупной генетической приспособленности» в той же саванне привело к оптимизации на подзадачу и способность «перехитрить других людей», для чего пришлось сильно оптимизировать «моделирование других людей», что оказалось возможно использовать на самом себе, что обратило систему на себя и сделало её рефлексивной, что сильно вложилось в обобщение интеллекта. До этого дошло несмотря на то, что всё это следовало той же самой функции вознаграждения в той же самой саванне.

Можно задать вопрос: возможен ли суперинтеллектуальный СИИ, который может быстро создать нанотехнологии и обладает некоторой пассивной безопасностью за счёт того, что он решает задачи вида «создать наносистему, которая делает X» примерно так же, как бобёр решает строительство дамб, имея набор специализированных способностей, но не имея обобщённой выходящей за пределы конкретных областей способности к обучению?

И в этом отношении надо заметить, что есть много, много, много штук, которые могу делать люди, но никакие другие животные, которые, думается, хорошо бы вложились в приспособленность этих животных, если бы был животный способ их делать. Они не делают себе железные когти. Так и не эволюционировала тенденция искать железную руду, пережигать дерево в уголь и собирать глиняные печи.

Животные не играют в шахматы, а ИИ играет, так что мы, очевидно, можем заставить ИИ делать штуки, которые животные не делают. С другой стороны, окружающая среда не ставит перед каким-нибудь видом вызов игры в шахматы.

Даже так: если бы какие-нибудь животные эволюционировали способность играть в шахматы, я точно ожидал бы, что нынешние ИИ размазывали бы их, потому что ИИ запущены на чипах, которые работают быстрее нейронов и совершают вычисления, невозможные для зашумлённых медленных нейронов. Так что это ненадёжный аргумент о том, что может делать ИИ.

[Ngo][14:09][14:11]

Да, хотя я замечу, что очень простые с человеческой инженерной точки зрения вызовы могут быть очень тяжёлыми для эволюции (например, колесо).

Так что эволюция животных-с-небольшой-помощью-от-людей могла бы привести к совсем другим результатам, чем эволюция животных-самих-по-себе. И аналогично, способность людей заполнять пробелы для не очень-то обобщённого ИИ может оказаться весьма значительной.

[Yudkowsky][14:11]

Тогда опять можно спросить: возможно ли создать ИИ, который хорош только в проектировании наносистем, которые приводят к сложным, но будем-надеяться-описываемым результатам в реальном мире, но не будет сверхчеловеческим в понимании и манипуляции людьми?

И я в общих чертах отвечу так: «Не исключено, хоть и не по умолчанию, я сейчас не знаю, как это сделать, это не простейший способ получить СИИ, способный создать наносистемы (и убить тебя), тебе потребуется получить водителя-красных-машин, который очень конкретно не способен водить синие машины.» Могу ли я объяснить, откуда я это знаю? Не уверен, обычно получается, что я объясняю X0, а слушатель не обобщает X0 до X и не применяет это для X1.

Это как спрашивать меня, как я вообще мог в 2008 году, до того, как кто-нибудь мог наблюдать AlphaFold 2, знать, что суперинтеллект мог бы решить проблему фолдинга белков; в 2008 году некоторые люди задавали мне этот вопрос.

Хотя та задача оказалась проще, чем нанотехнологии, я не сказал бы тогда, что AlphaFold 2 будет возможен на дочеловеческом уровне в 2021, или что он возникнет через пару лет после уровня обобщённости в области текста как у GPT-2.

[Ngo][14:18]

Какие важнейшие различия между решением фолдинга белков и проектированием наносистем, которые, скажем, самособираются в компьютер?

[Yudkowsky][14:20]

Определённо «Оказалось, использовать запоминание градиентным спуском огромной кучи поверхностных перекрывающихся паттернов и собрать из них большую когнитивную структуру, оказывающуюся консеквенциалистским наноинженером, который может только создавать наносистемы и так и не обзаводится достаточно общей способностью к обучению, чтобы понять общую картину и людей, всё ещё понимая цель ключевого действия, которое ты хочешь выполнить, проще, чем кажется» – это одно из самых правдоподобных заранее сформулированных чудес, которое мы можем получить.

Но это не то, что предсказывает моя модель, и я не верю, что, когда твоя модель говорит тебе, что ты сейчас умрёшь, стоит начать верить в конкретные чудеса. Нужно держать свой разум открытым для любых чудес, в том числе тех, которые ты не ожидал, и о которых не думал заранее, потому что на этот момент наша последняя надежда – на то, что будущее зачастую весьма удивительно – хотя, конечно, когда ты отчаянно пытаешься прокладывать пути с помощью плохой карты, негативные сюрпризы случаются куда чаще позитивных.

[Ngo][14:22]

Возможно, можно использовать такую метрику: сколько дополнительного вознаграждения получает консеквенциалистский наноинженер за то, что он начинает моделировать людей, сравнительно с тем, чтобы стать лучше в наноинженерии?

[Yudkowsky][14:23]

Но люди возникли совсем не так. Мы не добрались до атомной энергии, потому что получали от неё бонус к приспособленности. Мы добрались до атомной энергии, получая бонус к приспособленности от обтачивания кремневых топоров и составления коварных планов. Это довольно простое и локальное направление натренировало нам те же гены, которые позволяют нам строить атомные электростанции.

[Ngo][14:24]

Это в случае дополнительного ограничения необходимости выучиваться к новым целям каждое поколение.

[Yudkowsky][14:24]

А???

[Soares][14:24]

(Я так понял, Ричард имеет в виду «это следствие бутылочного горлышка генома»)

[Ngo][14:25]

Верно.

Хмм, кажется, мы уже об этом говорили.

Предложение: У меня есть пара отвлекающих меня вопросов, продолжим через 20 или 30 минут?

[Yudkowsky][14:27]

ОК

Хочу отметить, что этот вопрос для меня, хотя, может, не для других, выглядит потенциально ключевым. Т.е., если создание белковых фабрик, которые собирают нанофабрики, которые собирают наномашины, которые соответствуют какой-нибудь высокой сложной инженерной цели, не включает когнитивных вызовов, принципиально отличающихся от фолдинга белков, то, может быть, это можно безопасно сделать с помощью AlphaFold 3, такого же безопасного, как AlphaFold 2.

Не думаю, что мы можем так сделать. Хочу заметить для абстрактного Другого, что если для него обе задачи звучат как думательные штуки, и непонятно, почему нельзя просто сделать и другую думательную штуку с помощью думательной программы, то это тот случай, когда обладание конкретной моделью того, почему у нас нет такого наноинженера прямо сейчас, подскажет, что тут присутствуют конкретные разные думательные штуки.

Сонаправленность и ключевые действия

[Ngo][14:31]

В любом порядке:

Мне любопытно, как то, о чём мы говорим, относятся к твоему мнению о мета –уровневой оптимищации из AI-foom спора. (где ты говорил о том, как отсутствие какого-либо защищённого уровня оптимизации ведёт к мощным изменениям)
Мне любопытно, как твои заявления об «устойчивости» консеквенциализма (т.е. сложности направить мышление агента в нужном нам направлении) относится к тому, как люди полагаются на культуру, и в частности к тому, как люди, выращенные без культуры, получаются очень плохими консеквенциалистами

По первому: если очень сильно упрощать, то кажется, что есть два центральных соображения, которые ты уже долго пытаешься распространить. Одно – это некоторая разновидность рекурсивного улучшения, а другое – некоторая разновидность консеквенциализма.

[Yudkowsky][14:32]

Второй вопрос не очень осмыслен в моей родной онтологии? Люди, выращенные без культуры, не имеют доступа к константам окружения, предполагаемых их генами, ломаются, и оказываются плохими консеквенциалистами.

[Ngo][14:35]

Хмм, разумно. Окей, модифицирую вопрос: то, как люди рассуждают, действуют и т.д., сильно варьируется в зависимости от культуры, в которой они выросли. (Я в основном думаю о разных временах – вроде пещерных людей и современных.) Моя не слишком доверенная версия твоих взглядов на консеквенциалистов говорит, что обобщённые консеквенциалисты вроде людей обладают устойчивыми поисковыми процессами, которые не так просто изменить.

(Извини, если это не особо осмысленно в твоей онтологии, я несколько уставший.)

[Yudkowsky][14:36]

Что именно варьируется, что, как ты думаешь, я бы предсказал, должно оставаться постоянным?

[Ngo][14:37]

Цели, манеры рассуждений, деонтологические ограничения, уровень конформности.

[Yudkowsky][14:39]

А моя первая реакция на твой первый пункт такая: «У меня всего одно мнение об интеллекте, то, о чём именно я спорю, зависит от того, какие части этого мнения люди до странности упрямо отказываются принимать. В 2008, Робин Хансон до странности упрямо отказывался принимать то, как масштабируются способности, и есть ли вообще смысл рассматривать ИИ отдельно от эмов, так что я говорил о том, что видел самыми очевидными аргументами к тому, что Есть Много Места Над Биологией и что за человеческим уровнем начинается вжууууух».

«Потом выяснилось, что способности начали неслабо масшабироваться без самоулучшения. Это пример таких странных сюрпризов, которые кидает в нас Будущее, и может быть, случай, в котором я что-то упустил, потому что спорил с Хансоном, вместо того, чтобы представлять, как я мог бы быть неправ в обоих направлениях, не только в направлении, о котором другие люди хотят со мной спорить.»

«Ещё, люди были не способны понять, почему согласование сложное, застряв на обобщении концепта, который я называю консеквенциализмом. Предполагать, почему я говорил об этих двух штуках вместе – это предполагать, почему люди застревают в этих двух штуках вместе. И я думаю, что такие предположения бы переобъясняли случайные совпадения. Если бы Ян Лекун занимался эффективным альтруизмом, то мне пришлось бы объяснять что-нибудь другое, ведь люди, много контактирующие с EA, застревают в другом.»

Возвращаясь к твоему второму пункту, люди – сломанные штуки; если бы было возможно создать компьютеры на уровне ещё ниже человеческого, мы бы вели этот разговор на том уровне интеллекта.

[Ngo][14:41]

(Отменяю) Я полностью согласен про людей, но не особо важно, насколько поломаны люди, когда ИИ, про который мы говорим, непосредственно над людьми, и, следовательно, всего лишь чуть-чуть менее поломан.

[Yudkowsky][14:41]

Тут стоит держать в голове, что есть много странностей, уникальных для людей, и, если ты хочешь получить те же странности у ИИ, тебе может очень не повезти. Да, даже если ты как-нибудь попытаешься обучить им с помощью функции вознаграждения.

Однако, мне кажется, что, когда мы приближаемся к уровню Эйнштейна вместо уровня деревенского дурачка, хоть обычно и нет особой разницы, мы видим, как атмосфера утоньшается и турбулентность успокаивается. Фон Нейман был довольно рефлексивным парнем, который знал, и, в общем-то, помог определить функции полезности. Великие достижения фон Неймана не были достигнуты каким-нибудь сверхспециализированным гипернёрдом, тратившим весь свой интеллект на формализацию математики, науки и инженерии, но так никогда и не думавшем о политике или о том, имеет ли он сам функцию полезности.

[Ngo][14:44]

Не думаю, что требую той же странности. Но куча явлений, о которых я говорил, странны с точки зрения твоего понятия консеквенциализма. Получается, что у консеквенциалистов-примерно-человеческого-уровня происходит много странностей. Это указывает, что те штуки, о которых я говорил, более вероятны, чем ты ожидаешь.

[Yudkowsky][14:45][14:46]

Я подозреваю, что часть расхождения тут из-за того, что я считаю, что надо быть заметно лучше человека в наноинженерии, чтобы совершить достаточно значительное ключевое действие. Потому я и не пытаюсь собрать самых умных ныне живущих людей, чтобы они выполнили это ключевое действие напрямую.

Я не могу придумать что-то, что можно сделать с помощью чего-то лишь немножко умнее человека, что опрокинет игровую доску. Кроме, конечно, «создай Дружественный ИИ», что я и пытаюсь организовать. И его согласование было бы невероятно сложным, если бы мы хотели, чтобы ИИ сделал это за нас (в чистом виде проблема курицы и яйца, тот ИИ уже должен быть согласован).

[Ngo][14:45]

О, интересно. Тогда ещё вопрос: в какой степени ты думаешь, что именно явные рассуждения о функциях полезности и законах рациональности наделяют консеквенциалистов свойствами, о которых ты говоришь?

[Yudkowsky][14:47, moved up in log]

Явная рефлексия возможна дальше, начало пути просто в оптимизации для выполнения достаточно сложных штук, чтобы надо было перестать наступать себе на ноги и заставить разные части своих мыслей хорошо работать вместе.

У такого пути в конце концов только одно направление, а начать его можно по-разному.

(С поправкой на разные случаи, где разные теории принятия решений выглядят рефлексивно непротиворечивыми, и всё такое; хочется сказать «ты понял, что я имею в виду», но, возможно, поймут не все.)

[Ngo][14:47, moved down in log]

Агаа, я думаю, здесь замешаны и разногласия о геополитике. Например, в моём раннем резюмирующем тексте я упоминал возможные ключевые действия:

Отслеживать все потенциальные проекты СИИ в достаточной степени, чтобы США и Китай могли работать над совместным проектом, не беспокоясь о скрытых конкурентах.
Предоставить достаточно убедительные аргументы/демонстрации/доказательства надвигающегося экзистенциального риска, чтобы ключевые глобальные принимающие решения фигуры остановили прогресс.

Я предсказываю, что ты думаешь, что этого недостаточно; но не думаю, что вкапываться в геополитическую сторону вопроса это лучшее использование нашего времени.

[Yudkowsky][14:49, moved up in log]

Отслеживание всех проектов СИИ – либо политически невозможно в реальном мире, учитывая, как страны ведут себя на самом деле, либо, на политически-возможных уровнях, недостаточно хорошо сработает, чтобы предотвратить конец света, когда опасная информация уже распространится. ИИ тут не особо поможет; если это возможно, почему не сделать это сейчас? (Отмечу: пожалуйста, не пытайтесь делать это сейчас, это плохо обернётся.)

Предоставить достаточно убедительные аргументы =сверхчеловеческая манипуляция, невероятно опасная область, одна из худших, чтобы пытаться её согласовать.

[Ngo][14:49, moved down in log]

По первому пункту, мне кажется, что в твоих заявления о рекурсивном самоулучшении есть та же проблема, что и, как мне кажется, в твоих заявлениях о консеквенциализме – что слишком многое приписывается одной очень высокоуровневой абстракции.

[Yudkowsky][14:52]

Я предполагаю, что потенциально именно так ощущается изнутри непонимание абстракции. Робин Хансон всё спрашивал меня, почему я так доверяю своим абстракциям, хотя сам вместо этого доверял своим, худшим, абстракциям.

[Ngo][14:51][14:53]

Можешь ещё немного пообъяснять, что ты имеешь в виду под «заставить разные части своих мыслей хорошо работать вместе»? Это что-то вроде способности к метамышлению; или глобальный контекст; или самоконтроль; или…?

И я догадываюсь, что нет хорошего способа измерить, насколько важной в сравнении с остальными частью пути ты считаешь явную рефлексию – но можешь хотя бы грубо обозначить, насколько это критичный или некритичный компонент твоих взглядов?

[Yudkowsky][14:55]

Нет, это вроде того, как ты, скажем, не будешь платить за что-то пятью яблоками в понедельник, продавать это же за два апельсина во вторник, а потом менять апельсин на яблоко.

Я всё ещё не придумал домашние упражнения для передачи кому-то Слова Силы «сонаправленность», которое позволит смотреть на воду и видеть «сонаправленность» в, например, кошке, гуляющей по комнате, не спотыкаясь о свои же лапы.

Когда ты много и правильно рассуждаешь об арифметике, не делая ошибок, то длинная цепочка мыслей, много раз разделяющаяся и соединяющаяся обратно, приводит к какому-то заявлению, которое… всё ещё истинно и всё ещё про числа! Вау! Как так оказалось, что много отдельных мыслей вместе обладают этим свойством? Разве они не должны убрести куда-то на тему племенной политики, как в Интернете?

Можно посмотреть на это так: хоть все эти мысли происходили в ограниченном разуме, они являются тенями высшей неограниченной структуры – модели, заданной аксиомами Пеано; всё сказанное было правдой про числа. Кто-то ничего не понимающий мог бы возразить, что в человеке нет механизма оценки утверждения для всех чисел, очевидно, человек не может его содержать, так что очевидно, нельзя объяснить успех тем, что каждое из утверждений было правдой на одну и ту же тему чисел, потому что Единственным Способом представить эту структуру (в воображении этого человека) является этот механизм, которого у людей нет.

Но хоть математические рассуждения иногда могут сбиваться с пути, когда они всё же работают, это происходит потому что, на самом деле, даже ограниченные существа иногда могут соответствовать локальным отношениям, помогающим глобальной сонаправленности действий, когда все части рассуждения указывают в одном направлении, как фотоны в лазерном луче. Хоть и нету никакого внутреннего механизма, твёрдо устанавливающего глобальную сонаправленность в каждой точке.

Внешний оптимизатор натренировал тебя не платить за что-то пятью яблоками в понедельник, продавать это же за два апельсина во вторник, а потом менять два апельсина на четыре яблока. И точно так же он натренировал все маленькие кусочки тебя быть локально последовательными так, чтобы это можно было рассматривать неидеальной ограниченной версией высшей неограниченной структуры. И система получается мощной, хоть и неидеальной, из-за мощи последовательности и перекрытия частей, из-за того, как она неидеально отражает высшую идеальную структуру. В нашем случае высшая структура – это Полезность, и домашние упражнения с теоремами о последовательности приводят к признанию того, что мы знаем только одну высшую структуру для нашего класса задач, на эту структуру указывает множество математических указателей «смотреть здесь», хоть некоторые люди и занимались поиском альтернатив.

И когда я пытаюсь сказать это, люди отвечают «Ну, я посмотрел на теорему, и она говорит о возможности выбрать уникальную функцию полезности из бесконечного количества вариантов, но если у нас нет бесконечного количества вариантов, мы не можем выбрать функцию, так какое отношение это имеет к делу» и это такой вид ошибок, которые я не могу вспомнить, чтобы даже близко делал сам, так что я не знаю, как отучить людей их делать, и, может, я и не могу.

[Soares][15:07]

Мы уже превышаем время, так что давайте сворачиваться (после, наверное, ещё пары ответов Ричарда, если у него есть силы.)

[Yudkowsky][15:07]

Да, думал так же.

[Soares][15:07]

Предлагаю клиффхенгер для затравки следующей дискуссии, я так понял, что коммментарий Ричарда:

вероятно, содержит некую важную часть несогласия, и мне интересно, понимает ли Элиезер заявление Ричарда достаточно, чтобы пересказать его удовлетворительным для Ричарда способом.

[Ngo][15:08]

Сворачиваться сейчас осмысленно.

Поддерживаю то, что сказал Нейт.

У меня есть ощущение, что я теперь куда лучше представляю взгляды Элиезера на консеквенциализм (пусть и не слишком детально).

На метауровне, лично я больше склонен сосредотачиваться на штуках вроде «как нам прийти к пониманию мышления», а не «как нам прийти к пониманию геополитики и её влияния на необходимые ключевые действия».

Если дискуссию будет продолжать кто-то ещё, им можно будет попробовать сказать побольше про второе. Я не уверен, насколько это полезно для меня, учитывая, что моё (и, вероятно, Элиезера) сравнительное преимущество над остальным миром лежит в части про мышление.

[Дальше они вперемешку обсуждают, когда продолжать и более содержательные меташтуки. Первое я вырезал, а второе оставил. – прим. переводчика]

[Ngo][15:12]

Можно пересказать эту дискуссию [некоторым людям – вырезано для приватности]?

[Yudkowsky][15:13]

Нейт, потратишь минутку, опишешь, что думаешь?

(Soares ставит «лайк» и знак «Ок»)

[Soares][15:15]

Моя позиция: Я думаю, пересказывать можно, но лучше в целом отмечать, что это всего лишь пересказ (чем каждый раз сверять с Элиезером для одобрения, или что-то такое).

(Нго ставит «лайк»)

[Yudkowsky][15:16]

В целом согласен. Я немного обеспокоен об искажениях при пересказе, и о том, сказал ли я что-то, с чем Роб или кто-то ещё не согласится до публикации, но мы в любом случае собирались это показывать, я держал это в голове, так что, да пожалуйста, пересказывай.

[Ngo][15:17]

Здорово, спасибо

[Yudkowsky][15:17]

Признаюсь, мне любопытно, что из сказанного ты считаешь важным или новым, но на этот вопрос можно ответить и потом, в свободное, более удобное тебе время.

[Ngo][15:17]

В смысле, что я считаю стоящим пересказа?

[Yudkowsky][15:17]

Ага.

[Ngo][15:18]

Хмм, не уверен. Я не собирался сильно в это вкладываться, но раз я всё равно регулярно болтаю с [некоторыми людьми – вырезано для приватности], то не будет сложно это обдумать.

В твоё свободное время, мне было бы любопытно, насколько направление дискуссии соответствовало твоим целям, тому, что ты хочешь донести, когда это будет опубликовано, и на каких темах ты хотел бы больше сосредоточиться.

[Yudkowsky][15:19]

Не уверен, что это поможет, но попытаться сейчас выглядит лучше, чем ничего не говорить.

[Ngo][15:20]

(В дополнение к тому, что я чувствую себя менее компетентным в геополитике, она также кажется мне более деликатной темой для публичных заявлений, это ещё одна причина, почему я туда не вкапывался)

[Soares][15:21]

(кажется разумным! Замечу, впрочем, что я бы с радостью вырезал деликатные темы из записи, если бы это позволило нам лучше состыковаться, раз уж тема всё равно всплыла)

(Нго ставит «лайк»)

(хоть конечно тратить усилия на приватные дискуссии не столь ценно и всё такое)

(Нго ставит «лайк»)

[Ngo][15:22]

(этот вопрос и тебе, Нейт)

Ещё, спасибо Нейту за модерацию! Твои вмешательства были полезными и своевременными.

(Соарес ставит «сердечко»)

[Soares][15:23]

(этот вопрос и тебе, Нейт)

(понял, спасибо, вероятно, напишу что-нибудь после того, как у тебя будет возможность выспаться.)

[Yudkowsky][15:27]

Мне чуточку не нравится вести обсуждения, которые мы потом намерены вырезать, потому что обсуждение в целом будет иметь меньше смысла для читателей. Давайте лучше по возможности обходить такие темы.

(Нго ставит «лайк»)

(Соарес ставит «лайк»)

[Ngo][15:28]

Отключаюсь

[Yudkowsky][15:29]

Спокойной ночи, героический спорщик!

[Soares][16:11]

Дискуссия пока что довольно хорошо соответствовала моим целям! (Немного лучше, чем ожидал, ура!) Немного быстрых грубых заметок:

Мне понравилось, как ЭЮ объясняет свои модели в области консеквенциализма.
- Возражения Ричарда, как мне кажется, уже некоторое время витали в воздухе, я рад увидеть их явное обсуждение.
- Ещё, я признателен за ваши разговорные добродетели при обсуждении. (Предположение доброго намерения, щедрость, любопытство, и т.д.)
Я был бы рад повкапываться в ощущение Ричарда, что ЭЮ похожим образом неправ про рекурсивное самоулучшение и про консеквенциализм.
- И эта критика, как мне кажется, тоже витала в воздухе, предвкушаю её прояснение.
Я несколько разрываюсь между прояснением второго пункта или закреплением прогресса в первом.
- Что я бы хотел увидеть – это заметки от Ричарда с сравнением его модели взглядов ЭЮ до и после обсуждения.
- Ещё у меня есть неоформленное ощущение, что есть некоторые заявления, которые Элиезер пытался сделать, но которые так и не были восприняты; и, симметрично, некоторые возражения Ричарда, на которые, кажется, не поступило прямого ответа.
  - В ближайшие дни, может быть, составлю список таких мест и посмотрю, могу ли я прояснить что-то сам. (Не обещаю.)
  - Если получится, то, может быть, с радостью пообсуждаю их с Ричардом на отдельном канале в более удобное ему время.

[Ngo][5:40] (на следующий день, 9 сентября)

Дискуссия пока что […]

Что ты имеешь в виду под «первым пунктом» и «вторым пунктом» (у шестой точки списка)?

[Soares][7:09] (на следующий день, 9 сентября)

Что ты имеешь в виду под «первым пунктом» и «вторым пунктом» (у шестой точки списка)?

Первый = закрепить про консеквенциализм, второй = вкопаться в твою критику по рекурсивному самоулучшению и т.д. (Вложенность списков должна была показать это ясно, но оказалось, что она плохо тут отображается, упс.)

Последующее

Резюмирование Ричарда Нго

[Ngo] (10 сентября Google Doc)

2-я дискуссия

(В основном обобщения, а не цитаты; также не было пока оценено Элиезером)

Элиезер, по описанию Ричарда: «Главный Один из главных концептов, с пониманием которого у людей проблемы – это консеквенциализм. Люди пытаются рассуждать о том, как ИИ будет решать задачи, и каким образом это может быть или не быть опасно. Но они не осознают, что способность решать широкий ассортимент сложных задач подразумевает, что агент должен выполнять мощный поиск по возможным решениям, а это главный один из главных навыков, необходимых для совершения действий, сильно влияющих на мир. Сделать безопасным такой ИИ - это как пытаться создать ИИ, который очень хорошо водит красные машины, но не может водить синие – этого никак не получить по умолчанию, потому что вовлечённые навыки слишком похожи. И потому что процесс поиска такой обобщённый по умолчанию такой обобщённый, что я сейчас не вижу, как его можно ограничить какой-то конкретной областью.»

[Yudkowsky][10:48] (10 сентября комментарий)

Главный концепт

Один из главных концептов, с пониманием которого проблемы у некоторых людей. Их, кажется, бесконечный список. Мне не пришлось тратить много времени на раздумия о консеквенциализме, чтобы вывести следствия. Я не успеваю потратить много времени, говоря о нём, как люди начинают спорить.

[Yudkowsky][10:50] (10 сентября комментарий)

главный навык

Один из главных

[Yudkowsky][10:52] (10 сентября комментарий)

процесс поиска такой обобщённый

По умолчанию такой обобщённый. Почему я так давлю на то, что всё это верно лишь по умолчанию – работа над выживанием может выглядеть как много сложных необычных штук. Я не принимаю фаталистическую позицию «так и произойдёт», я оцениваю сложности получения результатов не по умолчанию.

[Yudkowsky][10:52] (10 сентября комментарий)

будет очень сложно

«я сейчас не вижу, как»

[Ngo] (10 сентября Google Doc)

Элиезер, по описанию Ричарда (продолжение): «В биологических организмах эволюция – один из источников основной источник консеквенциализма. Другой Вторичный результат эволюции – это обучение с подкреплением. У животного вроде кошки, когда она ловит мышь (или когда у неё не получается это сделать), много частей мозга немного подправляются, эта петля увеличивает вероятность, что она поймает мышь в следующий раз. (Замечу, однако, что этот процесс недостаточно мощен, чтобы сделать из кошки чистого консеквенциалиста – скорее, он наделяет её многими чертами, которые можно рассматривать как направленные в одну и ту же сторону.) Третья штука, которая в частности делает людей консеквенциалистами – это планирование. Другой результат эволюции, который в частности помогает людям быть в большей степени консеквенциалистами – это планирование, особенно, когда мы осведомлены о концептах вроде функции полезности.»

[Yudkowsky][10:53] (10 сентября комментарий)

один из источников

основной

[Yudkowsky][10:53] (10 сентября комментарий)

второй

Вторичный

[Yudkowsky][10:55] (10 сентября комментарий)

особенно, когда мы осведомлены о концептах вроде функции полезности

Почти всегда оказывает очень маленький эффект на человеческую эффективность, потому что у людей плохо с рефлексивностью.

[Ngo] (10 сентября Google Doc)

Ричард, по описанию Ричарда: «Рассмотрим ИИ, который получив гипотетический сценарий, сообщает, какой лучший план по достижению данной цели в данном сценарии. Конечно, ему необходимы консеквенциалистские рассуждения, чтобы понять, как достичь цели. Но это не то же самое, что ИИ, выбирающий, что сказать, чтобы достичь своих целей. Я утверждаю, что первый совершает консеквенциалистские рассуждения, не будучи консеквенциалистом, тогда как второй действительно им является. Или короче: консеквенциализм = навыки решения задач + использование этих навыков для выбора действий для достижения целей.»

Элиезер, по описанию Ричарда: «Первый ИИ, если получится такой создать, может быть немного безопаснее второго, но я думаю, что люди склонны очень сильно переоценивать, насколько. Разница может быть в одну строку кода: если мы дадим первому ИИ наш нынешний сценарий на ввод, то он станет вторым. В целях понимания сложности согласования лучше думать на том уровне абстракции, где ты видишь, что в каком-то смысле опасен сам поиск, когда он достаточно мощный, а не детали процесса планирования. Особенно помогающий мысленный эксперимент – думать о продвинутом ИИ, как о «помпе исходов», которая выбирает варианты будущего, в которых произошёл некий результат, и производит нужные действия, которые приведут к этим вариантам.»

[Yudkowsky][10:59] (10 сентября комментарий)

особенно помогающий

«попытка объяснения». Я не думаю, что большинство читателей поняло.

Я немного озадачен тем, насколько часто ты описываешь мои взгляды так, будто то, что я сказал, было сказано про Ключевую Штуку. Это кажется похожим на то, как многие эффективные альтруисты проваливают Идеологический Тест Тьюринга MIRI.

Если быть немного грубым и невежливым в надежде на то, что затянувшийся социальный процесс куда-то придёт, два очевидных немилосердных объяснения, почему некоторые люди систематически неправильно считают MIRI/Элиезера верящими в большее, чем на самом деле, и считают, что разные концепты, всплывающие в аргументах – это для нас Большие Идеи, хотя на них просто навело обсуждение:

(А) Это рисует комфортную нелестную картину Других-из-MIRI, до странности одержимых этими кажущимися неубедительными концептами, или в целом представляет Других как кучку чудаков, наткнувшихся на концепции вроде «консеквенциализма» и ставшими ими одержимыми. В общем, изобразить Другого как придающего много значения какой-то идее (или объясняющему мысленному эксперименту) – это привязать его статус к мнению слушателя о том, какой статус заслуживает эта идея. Так что, если сказать, что Другой придаёт много значения какой-то идее, которая не является очевидно высокостатусной, это понижает статус Другого, что комфортно.

(прод.)

(B) Это рисует комфортную льстящую себе картину продолжающегося постоянного несогласия, как несогласия с кем-то, кто считает какой-то случайный концепт более высокостатусным, чем на самом деле; в таком случае нет никакого понимания за пределами должным образом вежливого выслушивания попыток другого человека убедить тебя, что концепт заслуживает своего высокого статуса. В противоположность «хм, может, это не центральная штука, просто другой человек посчитал, что в ней возникли проблемы, и потому пытается её объяснить», что объясняет, почему обсуждение стоит на месте куда менее льстя себе. И, соответственно, куда комфортнее иметь такую точку зрения о нас, чем нам представлять, что кто-то о нас такого мнения.

Ну и, конечно, считать, что кто-то другой зря зацикливается на нецентральных штуках, весьма лестно. Но не значит, что неправильно. Но стоит обращать внимание, что история Другого, рассказанная с точки зрения Другого, скорее всего будет чем-то, что Другой находит осмысленным и, наверное, комфортным, даже если это подразумевает нелестный (и не ищущий истины и, наверное, ошибочный) взгляд на самого тебя. А не чем-то, что заставит Другого выглядеть странным и глупым и про что легко и гармонично представить, что Другой это думает.

[Ngo][11:18] (12 сентября комментарий)

Я немного озадачен тем, насколько часто ты описываешь мои взгляды так, будто то, что я сказал, было сказано про Ключевую Штуку.

В этом случае, я особо выделил мысленный эксперимент про помпу исходов, потому что ты сказал, что сценарий с путешествиями во времени был ключевым для твоего понимания оптимизации, и помпа исходов выглядит довольно похоже и проще к передаче в пересказе, потому что ты про неё уже писал.

Я также особо выделил консеквенциализм, потому что он казался ключевой идеей, которая постоянно всплывала в первом обсуждении под обозначением «глубокие паттерны решения задач». Я приму твоё замечание, что ты склонен выделять штуки, по поводу которых твой собеседник наиболее скептичен, не обязательно главные для твоих взглядов. Но если для тебя консеквенциализм на самом деле не центральный концепт, то интересно было бы услышать, какова его роль.

[Ngo] (10 сентября Google Doc)

Ричард, по описанию Ричарда: «В «нахождении плана для достижения данного исхода» есть компонент, который включает решение задачи объектного уровня о том, как кто-то, кому выдан этот план, может достигнуть исхода. А есть другой компонент – выяснить, как проманипулировать этими людьми, чтобы они сделали то, что тебе хочется. Мне кажется, что аргумент Элиезера в том, что не существует режима обучения, который приведёт ИИ к трате 99% времени мышления на первый, и 1% на второй компонент.»

[Yudkowsky][11:20] (10 сентября комментарий)

не существует режима обучения

…что режимы обучения, к которым мы сперва придём, за 3 месяца или 2 года, которые у нас будут, пока кто-то другой не устроит конец света, не будут обладать этим свойством.

У меня нет довольно сложной или удивительно проницательной теории о том, почему я продолжаю восприниматься как фаталист; мой мир наполнен условными функциями, не константами. Я всегда в курсе, что если бы у нас был доступ к Учебнику из Будущего, объясняющему по-настоящему устойчивые методы – эквивалент знания заранее про ReLu, которые были изобретены и поняты только через пару десятилетий после сигмоид – то мы могли бы просто взять и создать суперинтеллект, который считает, что 2 + 2 = 5.

Все мои предположения о «Я не вижу, как сделать X» всегда помечены как продукт моего незнания и положение по умолчанию, потому что у нас нет достаточного времени, чтобы выяснить, как сделать X. Я постоянно обращаю на это внимание, потому что ошибочность мнения о сложности чего-то – это важный потенциальный источник надежды, что найдётся какая-то идея вроде ReLu, устойчиво снижающая сложность, и о которой я просто не думал. Что, конечно, ещё не значит, что я неправ о какой-то конкретной штуке, и что широкое поле «согласования ИИ», бесконечный источник оптимистических идей, произведёт хорошую идею тем же процессом, сгенерировавшим весь предыдущий наивный оптимизм через незамечание, откуда взялась исходная сложность, или какие другие сложности окружают её очевидные наивные решения.

[Ngo] (10 сентября Google Doc)

Ричард, по описанию Ричарда (продолжение): «Хотя это может быть и так в пределе увеличивающегося интеллекта, самыми важными системами будут самые ранние из превосходящих человеческий уровень. Но люди кучей способов отклоняются от консеквенциалистских абстракций, о которых ты говоришь – к примеру, выращенные в разных культурах люди могут быть более или менее консеквенциалистами. Так что выглядит правдоподобно, что ранние СИИ могут быть сверхчеловеческими, в то же время, сильно отклоняясь от абстракции – не обязательно теми же способами, что и люди, но способами, которые мы в них вложили при обучении.»

Элиезер, по описанию Ричарда: «Эти отклонения начинают спадать уже на уровне Эйнштейна и Фон Неймана. И реалистично работающие ключевые действия требуют навыков значительно выше человеческого уровня. Думаю, что даже один процент мышления способного собирать продвинутые наносистемы ИИ, направленный на мысли о том, как убить людей, погубит нас. Твои другие предложения ключевых действий (надзор для ограничения распространения СИИ; убеждение мировых лидеров ограничить разработку СИИ) политически невозможно выполнить в достаточной степени, чтобы спасти мир, или же требуют согласования в очень опасной области сверхчеловеческой манипуляции.»

Ричард, по описанию Ричарда: «Я думаю, что у нас есть и значительное несогласие по поводу геополитики, влияющее на то, какие ключевые действия мы рассматриваем. Но, кажется, наше сравнительное преимущество лежит в области обсуждения мышления, так что давай сосредоточимся на этом. Мы сейчас можем создать системы, превосходящие людей в некоторых задачах, но не обобщённые настолько, чтобы даже попытаться захватить мир. Отставив ненадолго в сторону вопрос о том, какие задачи могут быть достаточно ключевыми, чтобы спасти мир, какая часть твоей модели проводит линию между шахматистами-человеческого-уровня и колонизаторами-галактики-человеческого-уровня, и говорит, что мы способны согласовать тех, кто значительно превосходит нас в одних задачах, но не в других? »

Элиезер, по описанию Ричарда: «Один аспект – это обобщённость между областями, достигающаяся за счёт изучения новых областей. Можно задать вопрос: возможен ли суперинтеллектуальный СИИ, который может быстро создавать нанотехнологии так же, как бобёр строит дамбы, через обладание кучей специализированных способностей к обучению, но не обобщённой? Но люди делают много, много, много всего, что не делают другие животные, но что, можно подумать, сильно вложилось бы в их приспособленность, если бы был животный способ это делать – к примеру, добывать и плавить железо. (Хотя сравнения с животными в целом не являются надёжными аргументами о том, что может делать ИИ – например, шахматы куда проще для чипов, чем для нейронов.) Так что мой ответ такой: «Возможно, но не по умолчанию; есть куча подзадач; я сейчас не знаю, как это сделать; это не простейший способ получить СИИ, который может создавать наносистемы.» Могу ли я объяснить, откуда я знаю? На самом деле, не уверен.»

[Yudkowsky][11:26] (10 сентября комментарий)

Могу ли я объяснить, откуда я знаю? На самом деле, не уверен.

В оригинальном тексте за этим предложением была длинная попытка всё же объяснить; если удалять её, что выглядит правильно, то стоит удалить и это предложение, иначе оно рисует ложную картину того, как много я пытаюсь объяснять.

[Ngo][11:15] (12 сентября комментарий)

Имеет смысл; удалено.

[Ngo] (10 сентября Google Doc)

Ричард, по описанию Ричарда: «Довольно тривиальные с человечески-инженерной точки зрения вызовы могут быть очень сложными для эволюции (например, колесо). Так что эволюция животных-с-небольшой-помощью-людей может привести совсем к другим результатам, чем эволюция животных-самих-по-себе. И, аналогично, способность людей заполнять пробелы для помощи менее обобщённым ИИ может быть весьма значительной.

Про нанотехнологию: в чём лежат важнейшие различия между решением фолдинга белков и проектированием наносистем, которые, скажем, самособираются в компьютер?»

Элиезер, по описанию Ричарда: «Этот вопрос для меня выглядит потенциально ключевым. Т.е., если создание белковых фабрик, которые собирают нанофабрики, которые собирают наномашины, которые соответствуют какой-нибудь высокой сложной инженерной цели, не включает когнитивных вызовов, принципиально отличающихся от фолдинга белков, то, может быть, это можно безопасно сделать с помощью AlphaFold 3, такого же безопасного, как AlphaFold 2. Я не думаю, что мы сможем это сделать. Но это одно из самых правдоподобных заранее сформулированных чудес, которое мы можем получить. Сейчас наша последняя надежда в том факте, что будущее зачастую довольно неожиданно.»

Ричард, по описанию Ричарда: «Мне кажется, что тут ты делаешь ту же ошибку, что и в рассуждениях про рекурсивное самоулучшение из AI-foom-спора – конкретно, вкладываешь слишком много веры в одну большую абстракцию.»

Элиезер, по описанию Ричарда: «Я предполагаю, что потенциально именно так ощущается изнутри непонимание абстракции. Робин Хансон всё спрашивал меня, почему я так доверяю своим абстракциям, хотя сам вместо этого доверял своим, худшим, абстракциям.»

Резюмирование Нейта Соареса

[Soares] (12 сентября Google Doc)

Консеквенциализм

Ок, вот мои заметки. Извиняюсь, что не выложил до середины воскресенья. В первую очередь хочу закрепить то, что уже обсудили. Надеюсь на поправки и, может быть, комментирование туда-обратно, где осмысленно (как с обобщением Ричарда), но не отвлекайтесь от основной линии обсуждения ради этого. Если время ограничено, то не страшно, даже если заметки не получат почти никакого внимания.

У меня есть ощущение, что пара заявлений Элиезера про консеквенциализм не была успешно передана. Возьмусь за это. Могу быть неправ и по поводу того, что Элиезер имел это в виду, и по поводу того, воспринял ли их Ричард; заинтересован и в опровержениях от Элиезера, и в пересказах от Ричарда.

[Soares] (12 сентября Google Doc)

«Консеквенциализм в плане, не в мышлении»

Думаю, Ричард и Элиезер с очень разных сторон подходят к понятию «консеквенциализм», на что указывает, например, вопрос Ричарда (грубый пересказ Нейта:) «Где, по твоему мнению, консеквенциализм в кошке?» и ответ Элиезера (грубый пересказ Нейта:) «причина очевидного консеквенциализма поведения кошки распределена между её мозгом и её эволюционной историей».

Конкретнее, я думаю, что можно сделать примерно такой аргумент:

Заметим, что с нашей точки зрения спасение мира выглядит довольно запутанным, и кажется, что оно, вероятно, будет включать длинные цепочки умных действий, для направления истории по узкому пути (например, потому, что, если бы мы видели короткие цепочки глупых действий, мы бы уже начали).
Предположим, что нам выдан план, якобы описывающий длинную цепочку умных действий, которые, если их исполнить, направляют историю по некоему узкому пути.
- Для конкретики предположим, что это план, якобы направляющий историю по пути, на котором у нас есть богатство и признание.
Одно правдоподобное стечение обстоятельств – что план на самом деле не умный, и не оказывает направляющего влияния на историю.
- К примеру, план описывает основание и менеджмент некоего стартапа в Кремниевой Долине, и этот стартап на практике не сработает.
При условии, что у плана есть свойство направления истории, есть смысл, в котором он устрашающий, независимо от его источника.
- К примеру, план описывает основание и менеджмент некоего стартапа в Кремниевой Долине, и план преуспеет при практически каждом исполнении, посредством того, что в нём есть очень обобщённые описания штук вроде обнаружения и реакции на конкуренцию, включая описания методов сверхчеловечески хорошего психоанализа конкурентов и давления на их слабые места.
- Заметим, что нам не нужно считать, что план сгенерирован некой «агентной» когнитивной системой, которая внутри себя использует рассуждения, которые мы бы назвали «обладание целями» и «преследование этих целей в реальном мире».
- Конкретнее, «устрашающий» – это свойство самого плана. К примеру, если план обеспечивает исполнителю богатство и признание в широком диапазоне ситуаций независимо от препятствий, то это подразумевает, что план содержит корректирующие курс механизмы для удержания направления на цель.
- Другими словами, план, планы, успешно направляющие историю (по этому аргументу) наверняка имеют широкий ассортимент корректирующих курс механизмов, чтобы удерживать направление на какую-то цель. И хоть это свойство скорее всего будет у любого такого плана, цель выбирается, конечно, свободно, отсюда и беспокойство.

(Конечно, на практике не стоит представлять простой План, переданный нам ИИ или машиной времени или ещё чем-то, вместо этого стоит вообразить систему, которая реагирует на экстренные ситуации и перепланирует в реальном времени. Как минимум, такая задача проще, так как позволяет вводить поправки только для реально происходящих ситуаций, а не предсказывать их все заранее и/или описывать обобщённые механизмы реакции. Но, и тут можно предсказать моё заявление до прочтения следующей фразы, «работа ИИ, перепланирующего на лету» и «работа петли ИИ+человек, которая перепланирует+переоценивает на лету» – это всё ещё в каком-то смысле «планы», которые всё ещё скорее всего обладают свойством Элиезер!консеквенциализм, если они работают.

[Soares] (12 сентября Google Doc)

Это часть аргумента, который я ещё нормально не выдавал. Оформляя его отдельно:

«Если план достаточно хорош, чтобы сработать, то он довольно консеквенциалистский на практике».

В попытке собрать и очистить несколько разрозненных аргументов Элиезера:

Если ты попросишь GPT-3 сгенерировать план для спасения мира, у неё не получится сделать очень детальный план. И если ты и помучаешь большую языковую модель до выдачи очень детального плана, этот план не будет работать. В частности, он будет полон ошибок вроде нечувствительности к окружению, предложений невозможных действий, предложений действий, стоящих на пути друг у друга.

Чувствительный к окружению план, описывающий из подходящих друг другу, а не конфликтующих действий – как, в аналогии Элиезера, фотоны в лазере – куда лучше в направлении истории по узкому пути.

Но, по мнению Элиезера, как я его понимаю, свойство «план не наступает постоянно себе на ноги» идёт рука об руку с тем, что он называет «консеквенциализмом». Явный и формальный случай связи можно увидеть, если взять в качестве наступания себе на ноги «обменять 5 апельсинов на 2 яблока, а потом 2 яблока на 4 апельсина». Ясно, что тут план провалился в «лазерности» – произошло что-то вроде того, что какая-то нуждающаяся-в-апельсинах часть плана и какая-то нуждающаяся-в-яблоках часть плана встали друг у друга на пути. Тут заодно и видно, как план может быть подобен лазеру в отношении яблок и апельсинов – если он ведёт себя так, будто им управляют некие последовательные предпочтения.

Как я понял, суть тут не в «всё наступающее себе на ноги похоже на непоследовательные предпочтения», а скорее «у плана получается связать цепочку последовательных сочетающихся действий лишь в той степени, в какой он является Элиезер!консеквенциалистом».

См. аналогию из теории информации, где если ты смотришь на лабиринт и пытаешься построить точное отображения этого лабиринта у себя в голове, то ты преуспеешь лишь настолько, насколько твои процессы Байесианские. И предполагается, что это ощущается как довольно тавтологичное заявление: ты (почти наверняка) не получишь соответствующую реальности картинку лабиринта в своей голове, случайно его себе представляя; тебе нужно добавлять представляемые стены каким-то процессом, коррелирующим с присутствием реальных стен. Твой процесс визуализации лабиринта будет точно работать постольку, поскольку ты имеешь доступ к наблюдениям, коррелирующим с присутствием настоящих стен, и правильно используешь эти наблюдения. Ты можешь заодно визуализировать дополнительные стены в местах, где политически целесообразно верить, что они есть, и можно избегать представлять стены в дальних областях лабиринта, потому что там темно, а у тебя нет целого дня. Но результат будет точным настолько, насколько у тебя всё же получилось действовать по-Байесиански.

Похожим образом, план работает-как-целое и избегает-наступать-себе-на-ноги в точности настолько, насколько он консеквенциалистичен. Это две стороны одной монеты, два взгляда на одно и то же.

И я тут не столько пытаюсь убедить, сколько увериться, что форма аргумента (как я его понял) была понята Ричардом. Я воспринял его так, что «неуклюжие» планы не работают, а «лазерные» планы работаю настолько, насколько они действуют подобно консеквенциалисту.

Перефразируя ещё раз: у нас есть большой набор математических теорем, подсвечивающих с разных сторон, что недостача у плана неуклюжести есть его последовательность.

(«И», – торопится заметить моя модель Элиезера, – «это, конечно, не значит, что все достаточно интеллектуальные разумы должны генерировать очень последовательные планы. Зная, что делаешь, можно было бы спроектировать разум, который выдаёт планы, всегда «спотыкающиеся об себя» в каком-то конкретном месте, так же как с достаточным мастерством можно было бы создать разум, верящий, что 2+2=5 (для какой-то осмысленной интерпретации этого утверждения). Но ты не получишь этого просто так – и при создании когнитивных систем есть что-то вроде «аттрактора», обобщённое обучение будет склонно наделять систему истинными убеждениями и делать её планы последовательными»)

(И, конечно, большинство беспокойства от того, что все эти математические теоремы, предполагающие, что план работает, пока он куда-то последовательно направлен, ничего не говорят о том, в каком направлении он должен быть направлен. Следовательно, если ты покажешь мне план, достаточно умный для направления истории по узкому пути, я смогу быть весьма уверен, что он довольно лазерный, но совсем не смогу быть уверен, в каком направлении.)

[Soares] (12 сентября Google Doc)

У меня есть догадка, что Ричард на самом деле понимает этот аргумент (хотя я бы порадовался его пересказу, для тестирования гипотезы!), и, возможно, даже принимает его, а мнения расходятся на следующем шаге – утверждении, что нам нужен «лазерный» план, потому что другие планы недостаточно сильны, чтобы нас спасти. (Конкретно я подозреваю, что большая часть несогласия в том, насколько далеко можно зайти с планами больше похожими на выводы языковых моделей, чем на лазеры, а не в вопросе, какие ключевые действия положат конец сильным рискам.)

Отставив это пока в сторону, хочу использовать ту же терминологию для переложения другого заявления, которое, как я видел, Элиезер пытался продвинуть: одна большая проблема с согласованием, в случае когда мы хотим «лазерные» планы – это то, что одновременно мы хотим, чтобы они не были «лазерными» в некоторых специфических направлениях.

В частности, план предположительно должен содержать механизмы для перефокусировки лазера, когда окружение содержит туман, и перенаправления лазера, когда окружение содержит зеркала (…аналогия тут немного хромает, извините), чтобы можно было на самом деле попасть в маленькую далёкую цель. Перефокусировка и перенаправление – это неотъемлемая часть планов, которые могут это сделать.

Но люди, выключающие ИИ – это как рассеивание лазера, а люди, исправляющие ИИ, чтобы он планировал в другом направлении – это как установка зеркал на пути лазера; и мы не хотим, чтобы план корректировался под эти вмешательства.

Так что, по мнению Элиезера, как я его понимаю, мы требуем очень неестесвенной штуки – путь-через-будущее, достаточно устойчивый, чтобы направить историю по узкому пути из очень широкого диапазона обстоятельств, но каким-то образом нечувствительный к конкретным разновидностям предпринятых людьми попыток поменять этот самый узкий путь.

Ок. Я продолжал переформулировывать это снова и снова, пока не получил удовлетворяющую меня достаточно дистиллированную версию, извините за повторения.

Я не думаю, что сейчас правильно спорить именно про это заявление (хотя рад был бы услышать возражения). Но неплохо было бы: если Элиезер скажет, соответствует ли написанное выше его точке зрения (и если нет, почему); и если Ричард попробует перефразировать это, чтобы я уверился, что сами аргументы были успешно переданы (ничего не говоря о их принятии Ричардом).

[Soares] (12 сентября Google Doc)

Моя модель Ричарда по поводу написанного выше считает что-то вроде «Это всё выглядит правдоподобно, но пока Элиезер выводит из этого, что нам надо лучше научиться обращаться с лазерами, я считаю это аргументом в пользу того, что лучше бы спасти мир не прибегая к лазерам. Наверное, если бы я считал, что мир нельзя спасти без лазеров, то я бы разделял многие твои беспокойства. Но я так не считаю, и, в частности, недавний прогресс в области ИИ – от AlphaGo и GPT до AlphaFold – кажется мне свидетельством в пользу того, что можно спасти мир без лазеров.»

И я припоминаю, как Элиезер высказал следующее (более-менее там же, емнип, хотя читатели отметили, что я мог неправильно это понять и это может оказаться вырванным из контекста):

По моему мнению, и, я думаю, по мнению Элиезера, ИИ в стиле «огромная куча поверхностных паттернов», которые мы наблюдаем сейчас, не будет достаточно, чтобы спасти мир (и чтобы уничтожить тоже). Есть набор причин, почему GPT и AlphaZero пока не уничтожили мир, и одна из них – «поверхностность». И да, может мы и не правы! Я сам был удивлён тем, как далеко зашло запоминание поверхностных паттернов (и, в частности, был удивлён GPT), и признаю, что могу быть удивлён и в будущем. Но я продолжаю предсказывать, что поверхностных штук не хватит.

У меня есть ощущение, что многие в сообществе в том или ином виде спрашивают: «Почему бы не рассмотреть задачу согласования систем, запоминающих огромные кучи поверхностных паттернов?». И мой ответ: «Я всё ещё не ожидаю, что такие машины убьют или спасут нас, я ожидаю, что есть фазовый переход, который не произойдёт, пока ИИ-системы не станут способны составлять достаточно глубокие и «лазерные» планы, чтобы делать что-то устрашающее, и я всё ещё ожидаю, что настоящий вызов согласования именно там.»

И это мне кажется ближе к основе несогласия. Некоторые (как я!) считают, что довольно маловероятно, что для того, чтобы спасти нас, достаточно выяснить, как получить значительную работу от поверхностных запоминальщиков. А, подозреваю, другим (возможно даже Ричарду!) кажется, что упомянутый «фазовый переход» – это маловероятный сценарий, и что я сосредотачиваюсь на странном неудачном угле пространства возможностей. (Мне любопытно, Ричард, поддержишь ли ты это или какую-то немного исправленную версию этого.)

В частности, Ричард, интересно, примешь ли ты что-то вроде следующего:

Я сосредотачиваю ~все мои усилия на случае поверхностных запоминальщиков, потому что я считаю их согласование будет достаточным, а даже если нет, то я ожидаю, что это хороший путь подготовиться к тому, что окажется нужным на практике. В частности, я не поставлю многое на идею, что есть предсказуемый фазовый переход, который заставит нас иметь дело с «лазерными» планировщиками, или что предсказуемые проблемы дают нам большой повод к беспокойству.

(Я подозреваю, что нет, по крайней мере не точно в этой форме, и я жажду поправок.)

Я подозреваю, что что-то неподалёку – ключевая точка несогласия, и я был бы в восторге, если бы у нас получилось дистиллировать её до чего-то такого же точного. И, для записи, лично я принимаю такую обратную позицию:

Я сосредотачиваю ~нисколько моих усилий на согласовании поверхностных запоминальщиков, так как ожидаю, что этого и близко не будет достаточно, не ожидаю сингулярности до получения более «лазерных» систем, и думаю, что «лазерный» режим планирования несёт предсказуемые сложности согласования, к которым Земля не выглядит готовой (в отличии, мне кажется, от сложностей согласования поверхностных запоминальщиков), так что я сильно беспокоюсь уже сейчас.

[Soares] (12 сентября Google Doc)

Ок, а теперь немного менее важных пунктов:

Ричард заявил:

И я подозреваю, что тут есть недопонимание, особенно учитывая это предложение из пересказа Ричарда:

Третья штука, которая в частности делает людей консеквенциалистами – это планирование – особенно, когда мы осведомлены о концептах вроде функции полезности.

В частности, я подозреваю, что модель Ричарда модели Элиезера особенно выделяет (или выделяла, до того, как Ричард прочёл комментарии Элиезера к пересказу) рефлексию системы и её размышления о своих собственных стратегиях, как метод повышения эффективности и/или консеквенциализма. Я подозреваю, что это недопонимание, и с удовольствием расскажу о моей модели по запросу, но, надеюсь, что предыдущая пара страниц это и так проясняет.

В конце концов, я вижу, что есть несколько мест, где Элиезер не ответил на попытки Ричарда пересказать его позицию, я подозреваю, что полезно было бы, если бы Ричард явно перечислил и повторил их, чтобы сверить общее понимание. В частности, стоило бы сверить (если Ричард в это действительно верит, и с возможными поправками Элиезера, я тут могу объединять разные штуки):

Элиезер не считает невозможным создание ИИ с почти любым заданным свойством, включая почти любое свойство безопасности, включая почти любое желаемое свойство «не-консеквенциализма» или «послушания». Но Элиезер считает, что большинство желаемых свойств безопасности не появятся по умолчанию, и требуют мастерства, на приобретение которого скорее всего потребуется беспокояще большое количество времени.
Заявления про консеквенциализм не особенно ключевые для взгляда Элиезера; они для него скорее вроде очевидных фоновых фактов; обсуждение задержалось на них потому, что в сообществе Эффективного Альтруизма многие с ними не соглашаются.

Для записи, я думаю, что Элиезеру стоит признать, что Ричард вероятно понимает пункт (1), и что сокращать «этого не получить по умолчанию и не похоже, что у нас будет достаточно времени» до «не получится» вполне осмысленно при резюмировании. (А Ричарду, может быть, стоит наоборот признать, что в данном контексте различие на самом деле довольно важное, так как оно означает разницу между «описывать текущее игровое поле» и «лечь и помереть».) Не думаю, что что-то из этого высокоприоритетно, но, если не сложно, может быть полезным :-)

Наконец, заявлю очевидное-для-меня: ничто из этого не предполагается как критика любой из сторон, и все участники продемонстрировали выдающиеся добродетели-согласно-Нейту в процессе обсуждения.

[Yudkowsky][21:27] (12 сентября)

Из заметок Нейта:

–> ХОРОШАЯ АНАЛОГИЯ.

…или, по меньшей мере, передаёт для меня, почему исправимость неконвергентна / непоследовательна / на самом деле сильно противоречит, а не просто является независимым свойством мощного генератора планов.

Но всё же я уже знаю, почему это так, и как это обобщается для неуязвимости к попыткам решить мелкие кусочки более важных аспектов этого – это не просто так по слабому умолчанию, это так по сильному умолчанию, где куча народу может потратить несколько дней на попытки придумать всё более и более сложные способы описать систему, которая позволит себя выключить (но не направит тебя, чтобы ты её выключил), и все эти предложенные способы проваливаются. (И да, люди снаружи MIRI регулярно публикуют статьи, заявляющие, что они только что полностью решили эту задачу, но все эти «решения» – это штуки, которые мы рассмотрели и отбросили как тривиально проваливающиеся на масштабе мощных агентов – они не понимают, что мы считаем проблемами первостепенной важности, так что это не свидетельство, что у MIRI просто недостаточная куча умного народу.)

[Yudkowsky][18:56] (Nov. 5 follow-up comment)

Вроде «Хорошо, мы возьмём систему, которая училась только на ситуациях, в которых была, и не может использовать воображение, чтобы планировать по поводу чего-то, чего она не видела, и тогда мы обнаружим, что если мы её не обучим ситуации её выключения, то она не будет вознаграждаться для его избегания!»

Перевод:

Максим Выменец

Ссылка на оригинал:

Ngo and Yudkowsky on alignment difficulty

Оцените качество перевода:

Короткая ссылка сюда: lesswrong.ru/1083