Вы здесь

Главные вкладки

8. Отходим от нейробиологии, 1 из 2: Про разработку СИИ

Стивен Бирнс

1.8.1 Краткое содержание / Оглавление
2.8.2 «Одно время жизни» превращается в «Один обучающий запуск»
3.8.3 Подобный-эволюции внешний цикл автоматического поиска: может и вовлечён, но не «ведущий проектировщик»
4.8.4 Другие не закодированные вручную штуки, которые могут быть в Направляющей Подсистеме будущего подобного-мозгу СИИ

8.1 Краткое содержание / Оглавление

Ранее в цепочке: в Посте №1 была описана моя общая мотивация, что такое «безопасность подобного-мозгу СИИ» и почему это нас заботит. Следующие шесть постов (№2-7) погрузились в нейробиологию. Посты №2-3 представили способ разделения мозга на «Обучающуюся Подсистему» и «Направляющую Подсистему», разделённые по признаку того, выполняют ли они то, что я называю «обучением с чистого листа». Затем посты №4-7 представили большую картину того, как по моему мнению работают цели и мотивации в мозгу, это оказалось похожим на причудливый вариант основанного на модели обучения с подкреплением «субъект-критик».

Теперь, установив нейробиологический фундамент, мы наконец-то можем более явно переключиться на тему подобного-мозгу СИИ. В качестве начальной точки размышлений вот диаграмма из Поста №6, отредактированная, чтобы описывать подобный-мозгу СИИ вместо настоящего мозга:

Диаграмма из Поста №6 с четырьмя изменениями, благодаря которым она теперь описывает подобный-мозгу СИИ, а не настоящий мозг: (1) справа сверху «время жизни» заменено на «обучение модели» (Раздел 8.2 ниже); (2) снизу справа «генетически закодированы» заменено на «[наверное] написаны людьми» (Разделы 8.3-8.4 ниже); (3) упоминания конкретных областей мозга вроде «миндалевидного тела» зачёркнуты, чтобы позже их можно было заменить частями исходного кода и/или наборами параметров обученной модели; (4) прочие биологически-специфичные слова вроде «сахара» зачёркнуты, чтобы позже их можно было заменить чем нам захочется, как я опишу в будущих постах.

Этот и следующий посты извлекут из прошлых обсуждений некоторые уроки о подобном-мозгу СИИ. Этот пост будет сосредоточен на том, как такой СИИ может быть разработан, а следующий – на его мотивациях и целях. После этого Пост №10 обсудит знаменитую «задачу согласования» (наконец-то!), а затем несколько постов буду посвящены возможным путям к её решению. Наконец, в Посте №15 я закончу цепочку открытыми вопросами, направлениями для будущих исследований и тем, как войти в эту область.

Вернёмся к этому посту. Тема: «Как, с учётом обсуждения нейробиологии в предыдущих постах, нам следует думать о процессе разработки софта для подобного-мозгу СИИ?». В частности, какова будет роль написанного людьми исходного кода, а какова – настраиваемых параметров («весов»), значения которых находят алгоритмы обучения?

Содержание:

Раздел 8.2 предлагает, что в процессе разработки подобного-мозгу СИИ «времени жизни животного» хорошо соответствует «обучение модели». Я опишу, как много времени оно может занять: я утверждаю, что, несмотря на пример людей, которым требуются годы/десятилетия, чтобы достичь высокого уровня компетенции и интеллекта, вполне правдоподобно, что время обучения подобного-мозгу СИИ будет измеряться неделями/месяцами. Я также обосную, что подобный-мозгу СИИ, как и мозг, будет работать в режиме онлайнового обучения, а не обучения-а-потом-развёртывания, и укажу некоторые следствия этого для экономики и безопасности.
Раздел 8.3 описывает возможность «внешнего цикла» автоматического поиска, аналогичного эволюции. Я обосную, что скорее всего он будет играть разве что небольшую роль, возможно, оптимизации гиперпараметров или чего-то в таком роде, и не будет играть большую роль «ведущего проектировщика», создающего алгоритм с чистого листа, несмотря на исторический пример того, как эволюция создала мозг с чистого листа. Я укажу некоторые следствия этого для безопасности СИИ.
Раздел 8.4: Хоть я и ожидаю, что «Направляющая Подсистема» будущего СИИ будет в основном состоять из написанного людьми исходного кода, есть и некоторые исключения, и тут я пройдусь по трём: (1) возможность обученных заранее классификаторов изображений или иных подобных модулей, (2) возможность СИИ, «направляющих» другие СИИ, и (3) возможность человеческой обратной связи.

8.2 «Одно время жизни» превращается в «Один обучающий запуск»

Эквивалентом «времени жизни животного» для подобного-мозгу СИИ является «один обучающий запуск». Думайте об этом как о запусках моделей при их обучении в современном ML.

8.2.1 Как много времени займёт обучение модели?

Как много времени займёт «обучающий запуск» подобного-мозгу СИИ?

Для сравнения, люди, по моему скромному мнению, по-настоящему достигают пика в возрасте 37 лет, 4 месяца и 14 дней. Все моложе – наивные дети, а все старше – отсталые старые упрямцы. У-упс, я сказал «14 дней»? Мне следовало сказать «…и 21 день». Простите меня за эту ошибку; я написал это предложение на прошлой неделе, когда ещё был наивным ребёнком.

Ну, что бы это ни было для людей, мы можем спросить: Будет ли это примерно так же для подобных-мозгу СИИ? Не обязательно! См. мой пост Вдохновлённые-мозгом СИИ и «якоря времени жизни» (Раздел 6.2) за моими аргументами о том, что время-на-часах, необходимое, чтобы обучить подобный-мозгу СИИ до состояния мощного обобщённого интеллекта с чистого листа, очень сложно предсказать заранее, но вполне правдоподобно, что оно может быть коротким – недели/месяцы, а не годы/десятилетия.

8.2.2 Онлайновое обучение подразумевает отсутствие фундаментального разделения обучения/развёртывания

Мозг работает по принципу онлайнового обучения: он постоянно обучается во время жизни, вместо отдельных «эпизодов», перемежаемых «обновлениями» (более популярный подход в современном машинном обучении). Я думаю, что онлайновое обучение очень критично для того, как работает мозг, и что любая система, которую стоит называть «подобным-мозгу СИИ», будет алгоритмом онлайнового обучения.

Чтобы проиллюстрировать разницу между онлайновым и оффлайновым обучением, рассмотрим два сценария:

Во время обучения, СИИ натыкается на два противоречащих друг другу ожидания (например, «кривые спроса обычно снижаются» и «много исследований показывают, что минимальные зарплаты не приводят к безработице»). СИИ обновляет свои внутренние модели для более детального и полного понимания, примиряющего эти два наблюдения. В дальнейшем он может использовать это новое знание.
То же самое с тем же самым результатом происходит во время развёртывания.

В случае онлайнового обучения подобного-мозгу СИИ различия нет. В обоих случаях один и тот же алгоритм делает одно и то же.

Напротив, в случае систем машинного оффлайнового обучения (например, GPT-3), эти два случая обрабатываются двумя отдельными алгоритмическими процессами. Случай №1 включал бы изменения весов модели, тогда как случай №2 включал бы только изменения её активаций.

Для меня это важный довод в пользу подхода онлайнового обучения. Оно требует решать задачу только один раз, а не два раза разными способами. И не просто какую-то задачу; это вроде бы центральная для СИИ задача!

Я хочу ещё раз подчеркнуть, насколько ключевую роль в мозгу (и в подобных-мозгу СИИ) играет онлайновое обучение. Человек без онлайнового обучения – это человек с полной антероградной амнезией. Если вы представились мне как «Фред» и через минуту я обращаюсь к вам «Фред», то я могу поблагодарить онлайновое обучение за то, что оно поместило этот кусочек знания в мой мозг.

8.2.3 …Всё же, общепризнанная в области машинного обучения мудрость о том, что «обучение дороже развёртывания», всё ещё более-менее применима

В нынешнем машинном обучении общеизвестно, что обучение дороже развёртывания. К примеру, в OpenAI, как утверждается, потратили около $10 млн на обучение GPT-3 – т.е. чтобы получить волшебный список из 175 миллиардов чисел, служащих весами GPT-3. Но теперь, когда у них на руках есть этот список из 175 миллиардов чисел, запуск GPT-3 дёшев как грязь – последний раз, когда я проверял, OpenAI брали примерно $0.02 за страницу сгенерированного текста.

Благодаря онлайновому обучению подобные-мозгу СИИ не будут иметь фундаментального различия между обучением и развёртыванием, как и обсуждалось в предыдущем разделе. Однако, экономика остаётся схожей.

Представьте трату десятилетий на выращивание ребёнка от рождения, пока он не станет умелым и эрудированным взрослым, возможно, с дополнительным обучением в математике, науке, инженерии, программированию, и т.д.

Теперь представьте, что у вас есть научно-фантастическая клонирующая машина, которая может мгновенно создать 1000 копий этого взрослого. Вы посылаете их на 1000 разных работ. Ладно, каждая копия, вероятно, будет нуждаться в дополнительном обучении этой работе, чтобы выйти на полную продуктивность. Но им не потребуются десятилетия дополнительного обучения, как от рождения до взрослого состояния. (Больше об этом в блоге Холдена Карнофски.)

Так что, как и в обычном машинном обучении, остаётся большая стоимость изначального обучения, и её, в принципе, можно смягчить созданием множества копий.

8.2.4 Онлайновое обучение вредит безопасности, но совершенно необходимо для способностей

Я утверждаю, что онлайновое обучение создаёт неприятные проблемы для безопасности СИИ. К сожалению, я также утверждаю, что если мы вовсе создадим СИИ, то нам понадобится онлайновое обучение или что-то с схожими эффектами. Давайте по очереди разберёмся с обоими утверждениями.

Онлайновое обучение вредит безопасности:

Давайте переключимся на людей. Предположим, я прямо сейчас приношу присягу как президент страны, и я хочу всегда в первую очередь заботиться о благе своего народа и не поддаваться песне сирен коррупции. Что я могу сделать прямо сейчас, чтобы контролировать, как будет вести себя будущий я? Неочевидно, правда? Может, даже, невозможно!

У нынешнего меня просто нет естественного и надёжного способа указать будущему мне, что хотеть делать. Лучшее, что я могу сделать – много маленьких хаков, предсказать конкретные проблемы и попробовать их предотвратить. Я могу связать себе руки, выдав честному бухгалтеру все пароли моих банковских счетов и попросить меня сдать, если там будет что-то подозрительное. Я могу устраивать регулярные встречи с надёжным осмотрительным другом. Такие способы немного помогают, но опять же, они не дают надёжного решения.

Аналогично, у нас может быть СИИ, который прямо сейчас честно пытается действовать этично и полезно. Потом он какое-то время работает, думает новые мысли, получает новые идеи, читает новые книги и испытывает новый опыт. Будет ли он всё ещё честно пытаться действовать этично и полезно через шесть месяцев? Может быть! Надеюсь! Но как мы можем быть уверены? Это один из многих открытых вопросов в безопасности СИИ.

(Может, вы думаете: мы могли бы периодически создавать бэкап СИИ-сейчас, и давать ему право вето на изменения СИИ-потом? Я думаю, это осмысленная идея, может быть даже хорошая. Но это не панацея. Что если СИИ-потом сообразит, как обмануть СИИ-сейчас? Или что если СИИ-потом меняется к лучшему, а СИИ-сейчас продолжает его сдерживать? Ведь более молодой я был наивным ребёнком!)

Онлайновое обучение (или что-то с схожими проблемами безопасности) необходимо для способностей:

Я ожидаю, что СИИ будут использовать онлайновое обучение, потому что я думаю, что это эффективный метод создания СИИ – см. обсуждение «решения одной и той же задачи дважды» выше (Раздел 8.2.2).

Однако, я всё же могу представить другие варианты, которые формально не являются «онлайновым обучением», но имеют схожие эффекты и ставят по сути те же вызовы безопасности, т.е. затрудняют возможность увериться, что изначально безопасный СИИ продолжает быть безопасным.

Мне куда сложнее представить способ избежать этих проблем. В самом деле:

Если СИИ может думать новые мысли и получать новые идеи и узнавать новые знания «при развёртывании», то мы, кажется, стоим перед этой же проблемой нестабильности целей. (См., к примеру, проблему «онтологического кризиса»; больше об этом в следующих постах.)
Если СИИ не может ничего из этого, действительно ли это СИИ? Будет ли он действительно способен на то, что мы хотим от СИИ, вроде составления новых концепций и изобретения новых технологий? Я подозреваю, что нет.

8.3 Подобный-эволюции внешний цикл автоматического поиска: может и вовлечён, но не «ведущий проектировщик»

Под «внешним циклом» подразумевается больший из двух вложенных циклов контроля потока исполнения. «Внутренним циклом» может быть код, симулирующий жизнь виртуального животного, секунду за секундой, от рождения до смерти. Тогда «внешний цикл поиска» будет симулировать много разных животных, с своими настройками мозга у каждого, в поисках того, которое (в взрослом состоянии) продемонстрирует максимальный интеллект. Прижизненное обучение происходит в внутреннем цикле, а внешний цикл аналогичен эволюции.

Вот пример крайнего случая проектирования с основной ролью внешнего цикла, где (можно предположить) люди пишут код, исполняющий подобный-эволюции алгоритм внешнего цикла, который создаёт СИИ с чистого листа:

Две модели разработки СИИ. Модель слева напрямую аналогична тому, как эволюция создала человеческий мозг. Модель справа использует аналогию между геномом и исходным кодом, определяющим алгоритм машинного обучения, как будет описано в следующем подразделе.

Подход эволюции-с-чистого-листа (левый) регулярно обсуждается в технической литературе по безопасности СИИ – см. Риски Выученной Оптимизации и десятки других постов про так называемые «меса-оптимизаторы».

Однако, как указано в диаграмме, этот подход – не то, как, по моим ожиданиям, люди создадут СИИ, по причинам, которые я вскоре объясню.

Несмотря на это, я всё же не полностью отвергаю идею внешнего цикла поиска; я ожидаю, что он будет присутствовать, хоть и с более ограниченной ролью. В частности, когда будущие программисты будут писать алгоритмы подобного-мозгу СИИ, в его исходном коде будет некоторое количество настраиваемых параметров, оптимальные значения которых не будут априори очевидными. Они могут включать, например, гиперпараметры обучающихся алгоритмов (как скорость обучения), разные аспекты нейронной архитектуры, и коэффициенты, настраивающие относительную силу разных встроенных стремлений.

Я думаю, весьма правдоподобно, что будущие программисты СИИ будут использовать автоматизированный внешний цикл поиска для установки значений многих или всех этих настраиваемых параметров.

(Или нет! К примеру, как я понимаю, изначальное обучение GPT-3 было таким дорогим, что его сделали только один раз, без точной настройки гиперпараметров. Вместо этого, гиперпараметры систематически изучили на меньших моделях, и исследователи обнаружили тенденции, которые смогли экстраполировать на полноразмерную модель.)

(Ничто из этого не подразумевает, что алгоритмы обучения с чистого листа не важны для подобного-мозгу СИИ. Совсем наоборот, они играют огромную роль! Но эта огромная роль заключена во внутреннем цикле – т.е. в прижизненном обучении. См. Пост №2.)

8.3.1 Аналогия «Геном = ML-код»

В диаграмме выше я написал «геном = ML-код». Это указывает на аналогию между подобным-мозгу СИИ и современным машинным обучением, как в этой таблице:

Аналогия «Геном = ML-код»
Человеческий интеллект	Современные системы машинного обучения
Геном человека	Репозиторий на GitHub с всем необходимым PyTorch-кодом, необходимым для обучения и запуска играющего в Pac-Man агента
Прижизненное обучение	Обучение играющего в Pac-Man агента
Как думает и действует взрослый человек	Играющий в Pac-Man обученный агент
Эволюция	Может быть, исследователи использовали внешний цикл поиска для некоторых понятных людям настраиваемых параметров – например, подправляя гиперпараметры, или отыскивая лучшую нейронную архитектуру.

8.3.2 Почему я думаю, что «эволюция с чистого листа» менее вероятна (как метод разработки СИИ), чем «геном = ML-код»

(См. также мой пост от марта 2021 года: Против эволюции как аналогии того, как люди создадут СИИ.)

Я думаю, лучший аргумент против модели эволюции с чистого листа – это непрерывность: «геном = ML-код» – это то, как сейчас работает машинное обучение. Откройте случайную статью по обучению с подкреплением и взгляните на обучающийся алгоритм. Вы увидите, что он интерпретируем для человека, и в основном или полностью спроектирован людьми – наверное, с использованием штук вроде градиентного спуска, обучения методом Временных Разниц и т.д. То же для алгоритма вывода, функции вознаграждения и т.д. Как максимум, в коде обучающегося алгоритма будет пара десятков или сотен бит информации, пришедшей из внешнего цикла поиска, вроде конкретных значений гиперпараметров, составляющих крохотную долю «работы проектирования», влитой в этот алгоритм.^[1]

К тому же, если бы будущее было за первостепенным внешним циклом поиска, я ожидал бы, что сейчас мы бы наблюдали, что проекты машинного обучения, больше всего полагающиеся на внешний цикл поиска, чаще встречались бы среди самых впечатляющих прорывных результатов. Насколько я могу посудить, это вовсе не так.

Я лишь предполагаю, что эта тенденция продолжится – по тем же причинам, что и сейчас: люди довольно хороши в проектировании обучающихся алгоритмов, и, одновременно с этим, внешний цикл поиска обучающихся алгоритмов крайне медленен и дорог.

(Ладно, то, что «крайне медленно и дорого» сегодня, будет быстрее и дешевле в будущем. Однако, когда по прошествии времени будущие исследователи машинного обучения смогут позволить себе большие вычислительные мощности, я ожидаю, что, как и сегодняшние исследователи, они обычно будут «тратить» их на бОльшие модели, лучшие процедуры обучения и так далее, а не на больший внешний цикл поиска.)

С учётом всего этого, почему некоторые люди готовы многое поставить на модель «эволюции с чистого листа»? Я думаю, это сводится к вопросу: Насколько вообще сложно может быть написать исходный код для модели «геном = ML-код»?

Если ваш ответ «это невозможно» или «это займёт сотни лет», то эволюция с чистого листа выигрывает по умолчанию! С этой точки зрения, даже если внешний цикл поиска потребует триллионы долларов и десятилетия реального времени и гигаватты электричества, это всё равно кратчайший путь к СИИ, и рано или поздно какое-то правительство или компания вложат деньги и потратят время, чтобы это произошло[2].

Однако, я не думаю, что написание исходного кода для модели «геном = ML-код» – дело на сотни лет. Напротив, я думаю, что это вполне посильно, и что исследователи в областях ИИ и нейробиологии двигают прогресс в этом направлении, и что они могут преуспеть в ближайшие десятилетия. За объяснениями, почему я так думаю, см. обсуждение «сроков до подобного-мозгу СИИ» ранее в цепочке – Разделы 2.8, 3.7 и 3.8.

8.3.3 Почему «эволюция с чистого листа» хуже чем «геном = ML-код» (с точки зрения безопасности)

Это один из редких случаев, где «то, что я ожидаю по умолчанию» совпадает с «тем, на что я надеюсь»! В самом деле, модель «геном = ML-код», которую я подразумеваю в этой цепочке, кажется куда более многообещающей для безопасности СИИ, чем модель «эволюции с чистого листа». Тому есть две причины.

Первая – интерпретируемость человеком. В модели «геном = ML-код» с ней плохо. Но в модели «эволюция с чистого листа» с ней ещё хуже!

В первом случае модель мира – это большой обучившийся с чистого листа чёрный ящик. И функция ценности и многое другое тоже, и нам надо будет много работать над пониманием их содержимого. Во втором случае, у нас будет только один ещё больший чёрный ящик. Нам повезёт, если мы вообще найдём там модель мира, функцию ценности, и т.д., не то что поймём их содержимое!

Вторая причина, которая будет подробно рассмотрена в следующих постах, в том, что осторожное проектирование Направляющей Подсистемы – это один из наших самых мощных рычагов контроля цель и мотиваций подобного-мозгу СИИ, который может обеспечить нам безопасное и выгодное поведение. Если мы сами пишем код Направляющей Подсистемы, то мы имеем полный контроль нам тем, как она работает и прозрачность того, что она делает при работе. Когда же мы использует модель эволюции с чистого листа, у нас есть намного меньше контроля и понимания.

Для ясности, безопасность СИИ – нерешённая задача и в случае «геном = ML-код». Я только говорю, что, по видимости, подход эволюции с чистого листа делает эту задачу ещё сложнее.

(Примечание для ясности: это обсуждение предполагает, что у нас будет именно подобный-мозгу СИИ в обоих случаях. Я не делаю заявлений о большей или меньшей безопасности подобного-мозгу СИИ в сравнении с не-подобным-мозгу СИИ, если такой возможен.)

8.3.3.1 Хорошая ли идея создавать подобные человеческим социальные инстинкты при помощи эволюции агентов в социальном окружении?

Возможное возражение, которое я иногда встречаю: «Люди не так плохи, а нашу Направляющую Подсистему спроектировала эволюция, верно? Может, если мы проведём подобный эволюции внешний цикл поиска в окружении, где много СИИ должны кооперироваться, то они заполучат альтруизм и другие подобные социальные инстинкты!» (Я думаю, что какие-то такие соображения стоят за проектами вроде DeepMind Melting Pot.)

У меня на это есть три ответа.

Во-первых, у меня сложилось впечатление (в основном от чтения Парадокса Доброты Ричарда Рэнгэма), что есть огромная разница между человеческими социальными инстинктами, социальными инстинктами шимпанзе, социальными инстинктами бонобо, социальными инстинктами волков, и так далее. К примеру, у шимпанзе и волков намного более высокая «реактивная агрессия», чем у людей и бонобо, хотя все четыре вида очень социальны. Эволюционное давление, приводящее к социальным инстинктам, очень чувствительно к динамике власти и другим аспектам социальных групп, и, возможно, обладает несколькими точками устойчивого равновесия, так что кажется, что его было бы сложно контролировать, подстраивая параметры виртуального окружения.
Во-вторых, если мы создадим виртуальное окружение стимулирующее СИИ кооперироваться с другими СИИ, то мы получим СИИ, имеющих кооперативные социальные инстинкты по отношению к другим СИИ в их виртуальном окружении. Но хотим мы, чтобы СИИ имели кооперативные социальные инстинкты по отношению к людям в реальном мире. Направляющая Подсистема, создающая первые может обобщаться, а может и не обобщаться до вторых. Люди, заметим, часто испытывают сочувствие по отношению к своим друзьям, но редко – по отношению к членам враждебного племени, фабрично разводимым животным и большим волосатым паукам.
В-третьих, человеческие социальные инстинкты – не всё, чего нам хочется! К примеру, есть версия (по-моему, правдоподобная), что низкая, но не нулевая распространённость психопатии у людей – не случайный глюк, а скорее выгодная стратегия с точки зрения эгоистичных генов и эволюционной теории игр. Аналогично, эволюция спроектировала людей с завистью, злобой, подростковыми бунтами, кровожадностью, и так далее. И вот так мы хотим спроектировать наши СИИ?? Ой.

8.4 Другие не закодированные вручную штуки, которые могут быть в Направляющей Подсистеме будущего подобного-мозгу СИИ

Как обсуждалось в Посте №3, я утверждаю, что Направляющая Подсистема (т.е. гипоталамус и мозговой ствол) мозгов млекопитающих состоит из генетически-закодированных алгоритмов. (За подробностями см. Пост №2, Раздел 2.3.3)

Когда мы переключаемся на СИИ, у меня есть соответствующее ожидание, что Направляющая Подсистема будущих СИИ будет состоять в основном и написанного людьми кода – как типично написанные людьми функции вознаграждения современных агентов обучения с подкреплением.

Однако, она может быть не полностью написана людьми. Для начала, как обсуждалось в предыдущем разделе, значения некоторого количества настраиваемых параметров, например, относительные силы встроенных стремлений, могут быть выяснены внешним циклом поиска. Вот ещё три возможных исключения из моего общего ожидания, что Направляющая Подсистема СИИ будет состоять из написанного людьми кода.

8.4.1 Заранее обученные классификаторы изображений и т.п.

Правдоподобно звучит, что составляющей Направляющей Подсистемы СИИ будет что-то вроде обученного классификатора изображений ConvNet. Это было бы аналогично тому, что в верхнем двухолмии человека есть что-то-вроде-классификатора-изображений для распознавания заранее заданного набора определённо-важных категорий, вроде змей, пауков и лиц (см. Пост №3, Раздел 3.2.1). Аналогично, могут быть обученные классификаторы для аудио- и других сенсорных вводов.

8.4.2 Башня СИИ, направляющих СИИ?

В принципе, вместо нормальной Направляющей Подсистемы мог бы быть целый отдельный СИИ, присматривающий за мыслями в Обучающейся Подсистеме и посылающий соответствующие вознаграждения.

Чёрт, можно даже создать целую башню СИИ-направляющих-СИИ! Предположительно, СИИ становились бы более сложными и мощными по мере восхождения на башню, достаточно медленно, чтобы каждый СИИ справлялся с задачей направления СИИ на уровень выше. (Ещё это могла бы быть пирамида, а не башня, с несколькими более глупыми СИИ, совместно составляющими Направляющую Подсистему более умного СИИ.)

Я не думаю, что такой подход точно бесполезен. Но мне кажется, что мы всё ещё не добрались до первого этапа, на котором мы создаём хоть какой-то безопасный СИИ. Создание башни СИИ-направляющих-СИИ не избавляет нас от необходимости сначала сделать один безопасный СИИ другим способом. Башне нужно основание!

Когда мы решим эту первую большую задачу, тогда мы сможем думать о том, чтобы использовать этот СИИ напрямую для решения человеческих проблем или косвенно, для направления ещё-более-мощных СИИ, аналогично тому, как люди пытаются направлять самый первый.

Я склоняюсь к тому, что возможность «использовать этот первый СИИ напрямую» более многообещающая, чем «использовать этот первый СИИ для направления второго, более мощного, СИИ». Но я могу быть неправ. В любом случае, сначала нам нужно до этого добраться.

8.4.3 Люди, направляющие СИИ?

Если Направляющей Подсистемой СИИ могут (предположительно) быть другой СИИ, то почему ею не может быть человек?

Ответ: если СИИ работает со скоростью мозга человека, то он может думать 3 мысли в секунду (или около того). Каждая «мысль» потребует соответствующего вознаграждения, и, может, десятков других сигналов эмпирической истины. Человек не сможет за этим поспевать!

Что можно – это сделать человеческую обратную связь вводом Направляющей Подсистемы. К примеру, мы можем дать людям большую красную кнопку с надписью “ВОЗНАГРАЖДЕНИЕ». (Нам, наверное, не стоит так делать, но мы можем.) Мы также можем вовлекать людей иными способами, включая не имеющие биологических аналогов – стоит быть открытыми к идеям.

———

К примеру, вот случайная статья по поиску нейронной архитектуры (NAS): «Эволюционирующий трансформер». Авторы хвастаются своим «большим пространством поиска», и оно действительно большое по меркам NAS. Но поиск по этому пространству всё же выдаёт лишь 385 бит информации, и его результат умещается в одну легко понятную человеку диаграмму из этой статьи. Для сравнения, веса обученной модели легко могут составлять миллионы или миллиарды бит информации, а конечный результат требует героических усилий для понимания. Мы также можем сравнить эти 385 бит с информацией в созданных людьми частях исходного кода обучающегося алгоритма, вроде кода умножения матриц, Softmax, Autograd, передачи данных между GPU и CPU, и так далее. Это будет на порядки больше, чем 385 бит. Это то, что я имел в виду, говоря, что штуки вроде подстройки гиперпараметров и NAS составляют крохотную долю общей «работы проектирования» над обучающимся алгоритмом.
(Наиболее полагающаяся на внешний цикл поиска статья, которую я знаю – это статья про AutoML-Zero, и даже там внешний цикл выдал по сути 16 строк кода, которые были легко интерпретируемы авторами.)
Если вам любопытны приблизительные оценки того, как много времени и денег потребует выполнение вычислений, эквивалентных всей истории эволюции животных на Земле, см. обсуждение про «Эволюционные якоря» в докладе Аджейи Котры по биологическим якорям 2020 года. Очевидно, это не в точности то же, что и вычисления, необходимые для разработки СИИ методом эволюции с чистого листа, но это всё же имеет какое-то отношение. Я не буду больше говорить на эту тему; не думаю, что это важно, потому что в любом случае не ожидаю разработки СИИ методом эволюции с чистого листа.

Перевод:

Выменец Максим

Ссылка на оригинал:

[Intro to brain-like-AGI safety] 8. Takeaways from neuro 1/2: On AGI development

Оцените качество перевода:

Короткая ссылка сюда: lesswrong.ru/3029