Стандартная аналогия

Zack_M_Davis

[Сцена: пригородный дом, прошла минута после окончания «И все шогготы лишь играют». Думимир возвращается со своей посылкой и кладёт её у двери. Он поворачивается к Симплиции_, которая его ждала.]_

Симплиция: Итак. Напомню… [закашливается] не кому-то конкретному, где мы остановились. [обращаясь к зрителям] Одну минуту назад, Думимир Погибелевич, вы выражали уверенность в том, что подходы к согласованию обобщённого искусственного интеллекта из нынешней парадигмы почти гарантировано провалятся. Вы не согласны с тем, что из того, что вроде бы можно заставить нынешние генеративные ИИ делать то, что хотят люди, следует что-то значимое для этого вопроса. Ещё вы сказали, что у вас есть эмпирические свидетельства в пользу ваших взглядов. Мне было бы очень интересно о них услышать!

Думимир: И правда, Симплиция Оптимистовна. Моё эмпирическое свидетельство – пример эволюции человеческого интеллекта. Видите ли, люди были оптимизированы исключительно для одного: совокупной генетической приспособленности…

[Симплиция поворачивается к зрителям и корчит рожу.]

Думимир: [раздражённо] Что?

Симплиция: Когда вы сказали, что у вас есть эмпирическое свидетельство, я подумала, что у вас есть эмпирическое свидетельство про ИИ, а не та же самая аналогия с совершенно иной областью, которую я слышу уже пятнадцать лет. Я надеялась на, знаете, статьи с ArXiv об индуктивных склонностях СГС, или ограничениях онлайнового обучения, или единой теории обучения… что угодно из этого века относительно того, что мы узнали из опыта реального построения искусственных разумов.

Думимир: Это как раз одна из многих вещей, которые вы, земляне, отказываетесь понимать. Вы их не строите.

Симплиция: Что?

Думимир: Прогресс способностей, который сейчас выдают исследователи ИИ вашей цивилизации основан не на глубоком понимании мышления, а на совершенствовании общих методов оптимизации, в которые вливается всё больше и больше вычислительных мощностей. Глубинное обучение – не просто не наука, это даже не инженерия, в традиционном смысле: непрозрачность создаваемых артефактов не имеет аналогов среди проектов мостов или двигателей. По сути, вся инженерная работа объектного уровня производится градиентным спуском.

Автогеноцидный маньяк Ричард Саттон назвал это горьким уроком и заявил, что в столь медленном его признании виновато раздутое эго и окостенелость представителей области. Но, в соответствии с наказом в полную ситу чувствовать эмоцию, подходящую ситуации, я думаю, что горечь тут и правда уместна. Вполне осмысленно чувствовать её по поводу недальновидного принятия фундаментально несогласуемой парадигмы из-за того, что она хорошо работает прямо сейчас, тогда как менее безумный мир заметил бы очевидные предсказуемые сложности и скоординировался бы, чтобы сделать Что-то Другое, А Не Это.

Симплиция: Я не думаю, что это самая подходящая интерпретация «горького урока». Саттон отстаивал обобщённые методы, которые масштабируются вместе с вычислительными мощностями, в противоположность вручную закодированным человеческим знаниям. Но это не значит, что мы пребываем в невежестве о том, что эти обобщённые методы делают. Один из примеров Саттона – компьютерные шахматы, где минимакс-поиск с оптимизациями вроде α–β отсечений оказался лучше, чем попытки в явном виде закодировать то, что люди-гроссмейстеры знают об игре. Но ничего страшного. Написание программы, которая думает о тактике как люди, вместо того, чтобы дать тактике появиться из поиска по игровому дереву tree, было бы большей работой ради меньшей выгоды.

Довольно схожая модель применима и к использованию глубинного обучения для аппроксимации сложных функций между разными распределениями данных: мы определяем обучающее распределение, а подробности подстройки под него делегируем подходящей архитектуре сети: свёрточной для изображений, трансформеру для последовательностей варьирующейся длины. Есть много литературы о…

Думимир: Литература не поможет, если авторы из вашей цивилизации не задают вопросы, которые нужно задавать, чтобы не погибнуть. Что, конкретно, я должен узнать из литературы вашего мира? Дайте мне пример.

Симплиция: Я не уверена, какой пример вам нужен. Просто исходя из здравого смысла, кажется, что задача согласования ИИ потребует близкого знакомства с мельчайшими эмпирическими подробностями того, как ИИ работает. Почему вы ожидаете, что можно просто мельком окинуть проблему взглядом из кресла и объявить всё это непосильным, основываясь лишь на аналогии с биологической эволюцией, которая совсем не то же самой, что обучение ML-моделей?

Выбирая наугад… ну, вот, я недавно читала об остаточных сетях. Глубокие нейросети считались тяжёлыми для обучения, потому что градиент слишком быстро менялся относительно ввода. Гиперландшафт потерь формируется в результате многократной композиции функций, из-за этого получался пёстрый фрактал из маленьких горок, а не гладкая поверхность, по которой можно спускаться. Эта проблема смягчается введением «остаточных» связей, которые пропускают некоторые слои и создают короткие пути через сеть с более гладкими градиентами.

Я не понимаю, как вы можете говорить, что это не наука или инженерия. Есть понятное объяснение, почему один проект обрабатывающей информацию системы работает лучше альтернатив. Оно основано на наблюдениях и математических рассуждениях. Есть десятки таких штук. Чего ещё, собственно вы ожидаете от науки, изучающей искусственные разумы?

Думимир: [скептически] Это ваш пример? ResNet?

Симплиция: … да?

Думимир: Согласно закону сохранения ожидаемых свидетельств, я посчитаю то, что у вас не удалось припомнить что-то относящееся к делу, как подтверждение моих взглядов. Я никогда не отрицал, что можно написать кучу диссертаций о подобных трюках, позволяющих сделать обобщённые оптимизаторы эффективнее. Проблема в том, что эти знания приближают нас к способности простым и грубым способом дойти до обобщённого интеллекта, не давая нам при этом знаний об интеллекте. Что за программу все эти градиентные обновления встраивают в вашу сеть? Как она работает?

Симплиция: [с дискомфортом в голосе] Над этим работают.

Думимир: Слишком мало и слишком поздно. Причина, по которой я так часто упоминаю эволюцию людей – это наш единственный пример того, как внешний цикл оптимизации создал внутренний обобщённый интеллект. Уж точно кажется, ваша цивилизация идёт по тому же пути. Да, градиентный спуск отличается от естественного отбора, но я не думаю, что разница имеет отношение к морали аналогии.

Как я уже говорил, понятие приспособленности нигде в наших мотивациях не представлено. То есть внешний критерий оптимизации, по которому отбирала эволюция, создавая нас, нисколько не похож на внутренний критерий оптимизации, который мы используем, выбирая, что делать.

Когда оптимизаторы становятся мощнее, всё, что не ценится функцией полезности в явном виде, не переживает реализацию крайних случаев. Связь между родительской любовью и совокупной приспособленностью в индустриальном окружении стала куда слабее, чем была в окружении эволюционном. Появилось больше возможностей, как люди могут приоритизировать благополучие любимых, не отслеживая частоты аллелей. В трансгуманистической утопии с загрузкой сознания это сломалось бы полностью, мы бы отделили свои разумы от биологического субстрата. Если какой-то другой формат хранения данных подходит нам лучше, то зачем нам придерживаться конкретной молекулы ДНК, о которой до девятнадцатого века никто и не слышал?

Конечно, у нас не будет никакой трансгуманистической утопии с загрузкой сознания, потому что история себя повторит: внешняя функция потерь, которую безумные учёные используют, чтобы вырастить первый СИИ, будет нисколько не похож на внутренние цели получившегося суперинтеллекта.

Симплиция: У вас, кажется, по сути идеологическая убеждённость, что внешнюю оптимизацию нельзя использовать для оформления поведения получающихся внутренних оптимизаторов. Вы не считаете, что «мы обучаем для X и получаем X» – допустимый шаг в предложении по согласованию. Но это, кажется, попросту противоречит опыту. Мы постоянно обучаем глубокие нейросети невероятно конкретным задачам, и это фантастически хорошо работает.

Интуитивно мне хочется сказать, что это работает куда лучше эволюции. Я не представляю, чтобы можно было преуспеть в селективном выведении животного, в совершенстве владеющего английским, как LLM. Немаловажно, что мы можем обучать и обучаем LLM с чистого листа, а селекция работает лишь с чертами, которые уже представлены в популяции, и недостаточно быстра, чтобы собирать новые адаптации с нуля.

Но даже селективное выведение по сути работает. Мы успешно одомашнили верных собак и питательный скот. Если бы мы начали выводить собак ради интеллекта так же, как выводили ради верности и дружелюбия, я ожидаю, что они оставались бы примерно настолько же верными и дружелюбными, когда их интеллект начал бы превосходить наш, и дали бы нам долю собственности в их гиперсобачьей звёздной империи. Не то чтобы это обязательно хорошая идея – я лучше передам мир новому поколению людей, а не новому доминирующему виду, даже если он дружественен. Но ваша позиция, кажется, не «Создание нового доминирующего вида – большая ответственность; нам надо позаботиться о том, чтобы всё получилось в точности правильно». Скорее, вы считаете, что мы вовсе не можем осмысленно повлиять на результат.

Перед антрактом я спросила у вас, как ваш пессимизм по поводу согласования СИИ при помощи обучающих данных сочетается с тем, что глубинное обучение вообще работает. Мой игрушечный пример – результат, в котором исследователи интерпретируемости смогли подтвердить, что обучение на задачах арифметики по остатку привело к тому, что сеть действительно выучила алгоритм сложения по модулю. Вы сказали, что это факт об обучающем распределении, тестовом распределении и оптимизаторе, и для дружественного ИИ это не сработает. Можете это объяснить?

Думимир: [вздыхает] Ну, раз уж надо. Если вы выберете кратчайшую программу, которая без ошибок справляется с арифметикой по модулю p для вводов вплоть до гугола, я предполагаю, что она сработает и для вводов больше гугола, несмотря на то, что есть огромное пространство возможных программ, которые правильно работают до гугола, но неправильно после. В этом смысле я подтверждаю, что обучающие данные могут, как вы выразились, «оформить поведение».

Но это конкретное утверждение о том, что происходит с обучающим распределением «арифметика по модулю с вводами меньше гугола», тестовым распределением «арифметика по модулю с вводами больше гугола» и оптимизатором «перебирать все программы по порядку, пока не найдёте ту, что работает на обучающем распределении». Это не общее утверждение о том, что внутренние оптимизаторы, найденный внешними оптимизаторами, будут хотеть то го же, что оптимистично представляли люди, составлявшие набор обучающих данных.

Опять же, эволюция людей – это наш единственный пример того, как внешняя оптимизация создала обобщённый интеллект. нам известен исторический факт, что первая программа, найденная оптимизатором «жадный локальный поиск посредством мутаций и рекомбинаций» с задачей «оптимизировать совокупную генетическую приспособленность в эволюционном окружении» не обобщилась до оптимизации совокупной генетической приспособленности на тестовом распределении современного мира. Аналогично, ваше утверждение о том, что селективное разведение «в общем-то работает» сталкивается с проблемой каждый раз, когда оно не работает. Например, когда отбор по маленькому размеру подпопуляции насекомых привёл к поеданию чужих личинок, а не к ограничению размножения, или когда отбор в курятнике куриц, которые откладывают больше яиц, привёл к появлению более агрессивных цыплят, которые делают менее продуктивными соседей.

Симплиция: [кивает] Ага-ага. Пока всё понятно.

Думимир: Я вам не верю.. Если бы вам и впрямь было понятно, вы бы заметили, что я только что опроверг наивное ожидание, что внешние оптимизаторы, обучающие при помощи вознаграждения, создадут внутренних оптимизаторов, преследующих это же вознаграждение.

Симплиция: Да, это звучит как очень тупая идея. Если вы когда-нибудь встретите кого-то, кто в это верит, я надеюсь, у вас получится в этом разубедить.

Думимир: [фрустрированно] Если вы не неявно допускаете это наивное ожидание, понимая то или нет, то я не понимаю, почему вы считаете, что «Мы обучаем для X и получаем X» – допустимый шаг в предложении по согласованию.

Симплиция: Это зависит от значения X и значения «обучаем». Как вы и сказали, есть факты о том, какие внешние оптимизаторы и обучающие распределения создают какие внутренние оптимизаторы, и как те, в свою очередь, обобщаются на разные тестовые окружения. И правда, факты не подчиняются выдаче желаемого за действительное: если кто-то рассуждает «Я нажимаю эту кнопку вознаграждения, когда мой ИИ делает хорошие вещи, следовательно, он научится быть хорошим», то его ждёт разочарование, когда выяснится, что система обобщилась до того, что ценит сами нажатия на кнопку (вы бы назвали это провалом внешнего согласования) или любой из многочисленных возможных коррелятов вознаграждения (вы бы назвали это провалом внутреннего согласования).

Думимир: [покровительственным тоном] Пока всё понятно. И почему это не сразу же топит «Мы обучаем для X и получаем X» как допустимый шаг предложения по согласованию?

Симплиция: Потому что я думаю, что возможно совершать предсказания о том, как поведут себя внутренние оптимизаторы и соответствующим образом выбрать план обучения. У меня нет полного описания, как это работает, но я думаю, что полная теория будет куда более подробна, чем, «Либо обучение превращает внешнюю функцию потерь в внутреннюю функцию полезности, в каком случае вы погибаете, либо никак нельзя сказать, что получится, в каком случае вы тоже погибаете». И, думаю, мы можем обрисовать эту более подробную теорию, аккуратно изучив подробности примеров, подобных обсуждаемым нами.

В случае эволюции, можно считать приспособленность определённой как «то, что в итоге отбирается». Можно заявить, что когда фермеры практикуют искусственный отбор, они «на самом деле» не разводят коров по выдаче молока, на самом деле, коров разводят по приспособленности! Если мы применим к Природе те же стандарты, что к фермеру, то скажем, что люди оптимизированы не исключительно для совокупной генетической приспособленности, а оптимизированы для спаривания, охоты, собирательства, заполучения союзников, избегания болезней, и т.д. Если посмотреть так, то взаимосвязь между внешней задачей обучения и мотивациями внутренней модели куда больше похожа на «мы обучаем для X и получаем X», чем считаете вы.

Но, несмотря на это, действительно, решения, которые находит эволюция, могут оказаться неожиданными для селекционера, который не продумал аккуратно, какое именно давление отбора он применяет. Как в ваших примерах неудач искусственного отбора: простейшее изменение насекомого, использующее существующую вариацию для ответа на давление отбора в сторону маленьких подпопуляций будет «каннибализм». Простейшее изменение куриц, помогающее откладывать больше яиц, чем соседние курицы – агрессия.

Думимир: Это такой троллинг, в котором вы соглашаетесь со всеми моими пунктами, а потом делаете вид, что всё ещё каким-то образом несогласны? Я этому и пытался вас научить: решения, которые находит внешняя оптимизация могут быть неожиданными

Симплиция: …для проектировщика, не обдумавшего тщательно, какие именно давления оптимизации он использует. Ответственное использование внешней оптимизации…

[Doomimir хохочет]

Симплиция: …не кажется непосильной инженерной задачей. И глубинное обучение кажется для её решения куда более перспективным, чем эволюция. Кажущуюся очень слабой связь между понятием совокупной генетической приспособленности и человеческой «тысячей осколков желания» можно рассматривать как проявление редких вознаграждений. Если внешний оптимизатор только измеряет частоту аллелей, но кроме этого никак не отбирает, какие аллели хороши, то простейшее решение – с учётом подразумеваемой априорной склонности естественного отбора к простоте – будет сильно зависеть от кучи случайных деталей эволюционного окружения. Если вы ожидали получить чистого максимизатора копирования ДНК, то это будет неожиданно.

А вот когда мы создаём ИИ-системы, мы можем заставить внешний оптимизатор предоставлять столько указаний, сколько нам хочется. И когда указания расположены плотно, это сильно ограничивает то, какие будут найдены решения. В нашей аналогии получается, что мы можем легко определять мельчайшие детали «эволюционного окружения». Мы можем больше, чем найти программу, которая справляется с простой целью, и принять все её странные стремления, оказавшиеся простейшим способом этой цели достигать. Мы ищем программу, которая аппроксимирует миллиарды пар ввода-вывода, на которых мы её обучили.

Считается, что нейросети вовсе могут обобщать потому, что отображение параметров в функции склоняется в сторону простых функций: в первом приближении обучение эквивалентно байесианским обновлениям на наблюдениях о том, что сеть с случайно инициализированными весами подошла под обучающие данные.

Что касается больших языковых моделей, осмысленной догадкой кажется, что простейшая функция, которая предсказывает следующий токен текста их интернета, это и правда просто предсказатель следующего токена. Не предсказывающий следующий токен консеквенциалист, который завайрхедится просто предсказуемыми токенами, а предсказатель текста из обучающего распределения. Специфичность для распределения, которую вы посчитали провалом внутренней согласованности в случае эволюции людей – не баг, а фича: мы обучали для X и получили X.

Думимир: А затем немедленно подвергли результат обучению с подкреплением.

Симплиция: Так уж получается, что я ещё и не считаю RLHF столь же обречённым, как вы. Ранние теоретические обсуждения согласования ИИ иногда говорили о том, что пойдёт не так, если вы попробуете обучить ИИ при помощи «кнопки вознаграждения». Эти дискуссии имеют философскую ценность. И правда, если бы у вас был гиперкомпьютер, и вы проектировали ИИ посредством грубого поиска простейшей программы, которая приводит к наибольшему числу нажатий на кнопку, то это, полагаю, ничем хорошим не закончилось бы. Отобранный таким образом слабый агент может вести себя так, как вам хочется, но сильный агент найдёт умные способы обмануть вас или промыть вам мозги, чтобы вы нажали на кнопку. Или просто захватит контроль над кнопкой сам. Если бы у нас на самом деле был гиперкомпьютер и мы действительно создавали ИИ таким образом, я была бы в ужасе.

Но, ещё раз, это больше не философская задача. Сейчас, пятнадцатью годами позднее, наши передовые методы имеют что-то общее с грубым поиском, но детали различаются. И детали важны. Реальное RLHF – не то же самое, что неограниченный поиск гиперкомпьютером того, что заставит людей нажать на кнопку поощрения. Оно подкрепляет переходы состояние-действие, которые получали вознаграждение в прошлом, причём зачастую – с ограниченным расстоянием Кульбака–Лейблера от того что было, а для выводов, которые раньше были бы крайне маловероятными, оно очень большое.

Если большая часть битов поиска берутся из предобучения, которое решает задачи, копируя мыслительные шаги, которые использовали бы люди, то немного направления в нужную сторону при помощи обучения с подкреплением не кажется таким опасным, каким оно было бы, если бы напрямую из RL вытекали бы основные способности.

Мне кажется, это довольно хорошо работает? Попросту не кажется таким уж неправдоподобным, что результатом поиска простейшей программы, которая аппроксимирует распределение естественного языка в реальном мире, а потом оптимизирует это для выдачи таких ответов, какие дал бы услужливый, честный и безвредный ассистент будет, ну… услужливый, честный и безвредный ассистент?

Думимир: Конечно будет казаться, что оно довольно хорошо работает! Оно было оптимизировано для того, чтобы хорошо для вас выглядеть!

Симплиция, я был готов попробовать, но я уже совершенно отчаялся, что вы пройдёте это бутылочное горлышко мышления. Вы можете сформулировать, что идёт не так на простейших игрушечных примерах, но всё отказываетесь увидеть, как так восхваляемые вами системы в реальном мире страдают от тех же фундаментальных проблем систематически менее заметным образом. С точки зрения эволюции люди в эволюционном окружении выглядели бы, будто они хорошо справляются с оптимизацией совокупной приспособленности.

Симплиция: А так ли это? Я думаю, что если бы за людьми в эволюционном окружении наблюдали инопланетяне, и они задались бы вопросом, как люди будут себя вести, если обретут технологии, то они бы смогли предсказать, что люди будут стремиться к сексу и сахару, а не к частоте аллелей. Это фактический вопрос, и он не кажется таким уж сложным.

Думимир: Не-безумные инопланетяне, да. Но, в отличие от вас, они были бы способны и предсказать, что языковые модели после RLHF будут стремиться к \<непереводимо-1>, \<непереводимо-2>, и \<непереводимо-3>, а не к тому, чтобы быть услужливыми, безвредными и честными.

Симплиция: Я понимаю, что что-то может поверхностно выглядеть хорошо, но не быть в этом устойчивым. Мы это уже видели на состязательных примерах классификации изображений. Классификаторы, которые хорошо справляются с естественными изображениями, могут выдавать бредятину на изображениях, специально сконструированных, чтобы их обдурить. Это тревожит, потому что означает, что машины на самом деле не видят изображения так же, как мы. Кажется, это похоже на те сценарии рисков, которые беспокоят вас: что полноценный СИИ может и будет казаться согласованным в том узком диапазоне ситуаций, в которых вы его обучили, но на самом деле он всё это время преследовал свои чуждые цели.

Но видно, что в том самом случае классификации изображений у нас есть прогресс. Есть попытаться сконструировать состязательные примеры для классификатора, который сделали более устойчивым посредством состязательного обучения, вы получите примеры, которые влияют и на человеческое восприятие. Если вместо традиционных классификаторов использовать генеративные модели, то их степень искажённости и качество работы за пределами распределения схожи с человеческими. Можно ещё вмешиваться не в ввод сети, а в её внутреннее состояние, и так защититься от непредвиденных неудач…

Полагаю, вас ничто из этого не впечатляет, но почему? Почему это не считается за постепенный прогресс в внедрении в машины человекоподобного поведения, за постепенный прогресс в согласовании?

Думимир: Подумайте об этом с точки зрения теории информации. Если для будущего, в котором мы выживаем, требуется указать в целях одиночного СИИ 100 бит, то вам понадобится точность, позволяющая попасть в эту трилионную трилионной трилионной части пространства целей. Эмприческая работа по машинному обучению, которая вас так впечатляет, не на пути, который даст нам такую точность. Я не отрицаю, что ценой больших усилий вы можете подтолкнуть непонятные матрицы к принятию поведения, кажущегося более человеческим. Это может дать вам пару бит, а может и не дать.

Это неважно. Это как пытаться восстановить потерянную пьесу Шекспира, обучая марковский генератор на существующих текстах. Да, у этого намного большая вероятность успеха, чем у случайной программы. Эта вероятность всё равно почти ноль.

Симплиция: Хм, возможно, камень преткновения между нами в том, в насколько крохотную цель надо попасть, чтобы реализовать сколько ценности будущего. Я принимаю тезис ортогональности, но мне всё ещё кажется, что задача, которая перед нами стоит, не такое «всё-или-ничего», как описываете вы, а более прощающая неточность. Если вы можете реконструировать правдоподобную аппроксимацию потерянной пьесы, насколько важно, что она не восстановлена в точности верно? Было бы интересно дальше обсудить…

Думимир: Нет. Ваша мать дала вам подходящее имя. Не вижу толка в тщетных попытках обучать необучаемых.

Симплиция: Но если миру всё равно конец?

Думимир: Ну, полагаю, так можно убить немного времени.

Симплиция: [зрителям] До скорого!

Перевод: 
Выменец Максим
Оцените качество перевода: 
Голосов пока нет