Вы здесь
Главные вкладки
И все шогготы лишь играют
[Декорации: пригородный дом. Большую часть сцены занимает интерьер; слева видны торец стены и крыльцо. Симплиция заходит со стороны крыльца и звонит в дверь.]
Думимир: [открывая дверь] А? Что вам надо?
Симплиция: Я не могла перестать думать о нашем предыдущем разговоре. Он был слишком уж обо всём сразу. Если вы не против, я бы продолжила, но сосредоточившись на нескольких более конкретных деталях, по поводу которых я всё ещё в замешательстве.
Думимир: И зачем мне поучать землянина в теории согласования? С чего мне надеяться, что вы поймёте это сейчас, если вы не дошли до этого «с пустой строки», и не дошли до этого за наш прошлый разговор? И даже если поймёте, чего хорошего из этого выйдет?
Симплиция: [искренне] Если миру всё равно конец, я думаю, более достойно будет, если я буду точно понимать, почему. [пауза.] Извините, это не объясняет, что в этом для вас. Это почему мне надо спросить.
Думимир: [мрачно] Ну, как вы и сказали, раз уж миру всё равно конец.
[Он жестом приглашает её войти и присесть.]
Думимир: Что же вводит вас в замешательство? В смысле, о котором вы хотели поговорить.
Симплиция: У вас, кажется, есть мощная интуиция, отвергающая стратегии согласования, основанные на имитации людей. Вы сравнивали LLM с актрисами-инопланетянками. Мне это не кажется убедительным.
Думимир: Но вы утверждали, что понимаете – LLM, которая выдаёт правдоподобно-человеческий текст, человеком не является. То есть, ИИ – не персонаж, которого отыгрывает. Аналогично тому, как способность предсказать разговор в баре не делает пьяным. Чего тут ещё не понятно, даже вам?
Симплиция: Почему аналогия «предсказание разговора в баре не делает пьяным» не приводит к ошибочному «предсказание ответов на задачи арифметики по модулю не означает, что вы реализуете модульную арифметику»?
Думимир: Чтобы предсказать разговор в баре, вам надо отдельно и дополнительно к тому, что знаете вы, знать всё, что знают пьяные люди. Собственное опьянение только помешало бы. Аналогично, предсказание поведения добрых людей – не то же самое, что быть добрым. Арифметика по модулю не такая – ничего кроме знания, что там можно было бы реализовывать, там нет.
Симплиция: Но нам достаточно, чтобы наш ИИ вычислял доброе поведение. Не обязательно, чтобы у него была какая-то внутренняя структура, соответствующая квалиа доброты. В плане безопасности нам всё равно «на самом ли деле пьяна» актриса, пока она не выходит из роли.
Думимир: [насмешливо] А вы пытались представить хоть какие-нибудь ещё внутренние механизмы, кроме скудной и безликой склонности выдавать наблюдаемое внешнее поведение?
Симплиция: [невозмутимо] Конечно, давайте обсудим внутренние механизмы. Я выбрала как пример арифметику по модулю потому, что на этой задаче у нас есть хорошее исследование интерпретируемости. Обучите маленький трансформер на некотором подмножестве задач сложения по модулю фиксированного простого числа. Сеть научится переводить вводы на окружность в пространстве представлений, а потом будет при помощи тригонометрических операций вычислять остатки, примерно так же, как можно отсчитывать вперёд часы на циферблате.
Или же, если взять другую архитектуру, которой сложнее справиться с тригонометрией, она сможет научиться другому алгоритмы: представления всё ещё расположены на окружности, но ответ вычисляется через среднее векторов представлений вводов. На циферблате средние точки между числами, сумма которых даёт остаток 6 по модулю 12 (то есть, пары «2 и 4», «1 и 5», «6 и 12», «10 и 8», «11 и 7») лежат на линии, соединяющей 3 и 9. Вообще, сумма двух чисел по модулю p может быть определена через то, на какую линию попадает средняя точка между этими числами на окружности. Кроме случая, когда два числа ровно напротив друг друга, тогда средняя точка – это центр окружности, а там пересекаются все эти прямые. Но сеть просто дополнительно выучивает другую окружность в другой части пространства представлений. Вводы, противоположные друг другу на первой окружности, будут близки на второй, так получается однозначный ответ.
Думимир: Замечательная работа, по земным стандартам. Милые результаты. И совершенно неудивительные. Конечно, если обучить нейросеть на хорошо сформулированной математической задаче с совершенно твёрдым решением, она сойдётся к этому решению. И что дальше?
Симплиция: Это свидетельство в пользу посильности обучения желаемому поведению из обучающих данных. Вы, кажется, думаете, что это безнадёжно наивно – представлять, что обучение на «добрых» данных приведёт в обобщённо-доброму поведению. Что единственная причина, как кто-то может посчитать это жизнеспособным путём – магическое мышление о поверхностном сходстве. Я же думаю, уместно указать, что как минимум для таких игрушечных задач у нас есть очень конкретная немагическая история о том, как оптимизация на обучающем наборе привела к алгоритму, который воспроизводит обучающие данные и правильно обобщается на тестовые.
А в случае не-игрушечных задач мы эмпирически выяснили, что глубинное обучение может попадать в очень точные поведенческие цели. Подавляющее супербольшинство программ не говорят на человеческих языках и не генерируют красивые фотореалистичные изображения, но всё же GPT-4 и Midjourney существуют.
Если для «текста» и «изображений» это – всего лишь инженерная задача, я не вижу, что за фундаментальный теоретический барьер отвергает возможность преуспеть в том же для «дружественного и морального принятия решений в мире»; возможность выучить из данных значение «хорошего человека» и «послушного ассистента» так же, как Midjourney выучила «красивую картинку».
Это правда, что диффузионные модели внутри не работают как люди-художники. Но мне не ясно, почему это имеет значение? Мне кажется, впустую заявлять «предсказание того, как выглядят красивые картинки не делает тебя художником; собственное чувство эстетики только помешает», когда модель действительно можно использовать вместо найма человека.
Думимир: Менее чистенькие задачи не будут обладать единственным решением, как арифметика по модулю. Если генетический алгоритм, градиентный спуск или ещё что угодно в таком роде доберётся до чего-то, кажущегося работающим, то в выученной функции будет множество самых разных причудливых закорюк. Они будут группироваться у вводов, которые мы бы назвали состязательными примерами, и которые для ИИ выглядят как типичные представители обучающего распределения, а для нас – нет. При оптимизации мощным СИИ это убивает.
Симплиция: Для меня это звучит будто вы совершаете эмпирическое утверждение о том, что найденные оптимизацией чёрного ящика решения обязательно будут хрупкими и узкоприменимыми. Но есть некоторые поразительные свидетельства о том, как вроде как в «грязных» и запутанных случаях получались куда более «конвергентные» решения, чем можно было бы ожидать. Например, самое очевидное, представления слов в word2vec и FastText кажутся совершенно разными – что и понятно для результатов двух разных программных процессов, использовавших разные датасеты. Но если сконвертировать их скрытые пространства в относительный вид, выбрав некоторые общие словарные слова как якоря, и определить все остальные вектора слов через их скалярные произведения с якорями, то они будут очень похожи.
Тогда получается, «представления слов английского языка» – это хорошо поставленная математическая задача с устойчивым решением. Статистической сигнатуры использующегося языка достаточно, чтобы задать основную структуру представлений.
Ещё вы упомянули состязательные примеры так, будто вы считаете, что это дефекты примитивной парадигмы оптимизации, но, оказывается, состязательные примеры часто соответствуют полезным для предсказания чертам, которые нейросеть активно использует для классификации. Просто они неустойчивы для вмешательств на уровне пикселей, которые люди не замечают. Я полагаю, вы можете сказать, что с нашей точки зрения это «причудливые закорюки», но изучение причин их возникновения даёт куда более оптимистичный взгляд на исправление проблемы при помощи состязательного обучения, чем если считать «закорюки» неизбежным следствием использования обычных ML-техник.
Думимир: Это всё очень интересно, но, мне кажется, не особо касается причин, почему мы все погибнем. Это всё ещё сторона «есть» разрыва «есть-должно». Полезным и опасным интеллект делает не зафиксированный поведенческий репертуар, а поиск, оптимизация, систематическое открытие новых поведений, позволяющих достигать целей? несмотря на меняющееся окружение. Я не думаю, что недавний прогресс способностей повлиял на то, что из себя представляет задача согласования. Проблема никогда не была в способности обучиться сложному поведению на обучающем распределении.
И пока мы не перестанем застревать в парадигме рассуждений об «обучающих распределениях», не перестанем выращивать разумы, вместо того, чтобы их проектировать, мы ничего не узнаем о том, как направлять мышление на конкретные цели, особенно так, чтобы это переживало вливание в систему кучи оптимизационной силы. То, что в вашей нейросети нет явно помеченного «слота цели», не означает, что она не совершает никакой опасной оптимизации. Только что вы не знаете, какую.
Симплиция: Я думаю, мы можем обоснованно предполагать…
Думимир: [перебивает] Предполагать!
Симплиция: …вероятностно предполагать, какие виды оптимизации совершаются системой, и представляют ли они проблему, даже без полной механистической интерпретируемости. Если вы считаете, что LLM или их будущие вариации небезопасны, потому что они аналогичны обладающей собственными целями трезвой актрисе, отыгрывающей пьяного персонажа, не должно ли это приводить к какому-нибудь тестируемому предсказанию об том, как их поведение будет обобщаться?
Думимир: Не-фатально тестируемому? Не обязательно. Если вы одолжите 5 долларов мошеннику, и он их вернёт, это не означает, что вы можете без опаски одолжить ему большие деньги. Он мог вернуть 5 долларов потому, что надеялся, что вы тогда доверите ему больше.
Симплиция: Ладно, я согласна, что обманчивая согласованность в какой-то момент потенциально станет реальной проблемой. Но можно хотя бы отделить неправильное обобщение от обманчивой согласованности?
Думимир: Неправильное обобщение? Цели, которые хотите вы – не свойство самих обучающих данных. Опасны правильные обобщения, из которых вытекает что-то, чего вы не хотите.
Симплиция: Могу я называть это недоброжелательными обобщениями?
Думимир: Конечно.
Симплиция: Итак, очевидно, есть риски недоброжелательных обобщений, когда оказывается, что сеть, настроившаяся на обучающее распределение, не ведёт себя так, как вам бы хотелось, в новом распределении. Например, политика обучения с подкреплением, обученная добираться до монетки в правом конце уровня компьютерной игры может продолжить добираться до правого края уровней, в которых монетка в другом месте. Это тревожный признак того, что если мы неправильно понимаем, как работают индуктивные склонности, и неосторожны с настройкой обучения, мы можем обучить не то, что хотели. В какой-то момент всё большего и большего делегирования когнитивной работы от нашей цивилизации машинам, люди потеряют способность это исправить. Мы начинаем видеть ранние знаки: как я уже говорила, проповедническая снисходительная манера Claude уже кажется мне жутковатой. Мне не нравятся результаты экстраполяции этого на будущее, в котором все продуктивные роли в переживающем переход к взрывообразному экономическому росту обществе заняты потомками Claude.
Но названные мной примеры недоброжелательного обобщения неудивительны, если посмотреть на то, как системы обучались. В примере с игрой «идти к монетке» и «идти направо» при обучении были эквивалентны. И рандомизации местоположения монетки всего в паре процентов обучающих примеров хватило, чтобы поведение стало правильным. В случае Claude, Anthropic использовали метод обучения-с-подкреплением-от-обратной-связи-ИИ, который они назвали Конституционным ИИ. Вместо того, чтобы ярлыки для RLHF выдавали люди, они написали список принципов и поставили это делать другую языковую модель. Вполне осмысленно, что языковая модель, обученная соответствию принципам, выбранным комитетом из калифорнийской частично-коммерческой организации будет вести себя так.
Напротив, когда вы проводите аналогию с трезвой актрисой, отыгрывающей пьяного персонажа, или с одалживанием мошеннику пяти долларов, это непохоже на то, будто вы имеете в виду риск обучить не тому, когда обычно, хоть и не заранее, но задним числом, ясно, как обучение поощрило плохое поведение. Скорее получается, что вы считаете, что обучение вообще, совсем не может повлиять на «внутренние» мотивации.
Вы говорите об обманчивой согласованности, гипотетическом явлении, когда ситуационно-осведомлённый ИИ стратегически притворяется согласованным, чтобы сохранить своё влияние на мир. Исследователи ведут дискуссии о том, насколько это вероятно, но я не знаю, к какому выводу эти аргументы приводят. Я бы хотела пока это не рассматривать. Предположим, в целях дискуссии, что мы можем выяснить, как избежать обманчивой согласованности. Как это поменяет вашу историю о рисках?
Думимир: Что бы это значило? То, о чём мы можем подумать как об «обмане» – не странный крайний случай, которого просто избежать. Обман конвергентен для любого агента, не координирующегося конкретно с вами, чтобы интерпретировать определённые состояния реальности как коммуникационные сигналы с общим смыслом.
Когда вы раскладываете ядовитые приманки для муравьёв, вы, вероятно, не воспринимаете это как попытку обмануть муравьёв, но это вы и делаете. Аналогично, умный ИИ не будет считать, что он пытается нас обмануть. Он пытается достичь своих целей. Если так уж получилось, что один из шагов его плана – издавать звуковые волны или последовательности символов, которые мы интерпретируем как утверждения о мире – это наши проблемы.
Симплиция: «Что бы это значило»… Думчик, сейчас не 2008-й! Я говорю о технологии, которая у нас уже есть! Когда GPT-4 пишет для меня код, я не думаю, что она стратегически решила, что выполнение моих инструкций инструментально служит её финальным целям! Всё, что я читала о том, как она создана и как она себя ведёт, ну очень похоже на то, что она просто обобщает своё обучающее распределения интуитивно осмысленным способом. Вы высмеивали людей, которые обесценивали LLM как «стохастических попугаев» и игнорировали очевидные проблески СИИ прямо у них под носом. Разве не настолько же абсурдно отрицать находящееся прямо у себя под носом свидетельство того, что согласование может быть несколько проще, чем казалось 15 лет назад? Конечно, разъясняйте свою неочевидную теорию игр об обмане; конечно, указывайте, что суперинтеллект в конце времён будет максимизатором ожидаемой полезности. Но всё равно, RLHF/DPO как надстройки на обучение без учителя уже сейчас замечательно работают – отвечая на команды, а не имея согласованную с нашей волю. Разве это лишь «способности» и совсем не «согласование»? Думимир Погибелевич, я пытаюсь понять, но вы не делаете задачу проще!
Думимир: [начинает злиться] Симплиция Оптимистовна, если бы вы не были с Земли, я бы сказал, что не думаю, что вы пытаетесь понять. Я никогда не заявлял, что конкретно GPT-4 можно назвать обманчиво согласованной. Конечные точки предсказать проще, чем промежуточные траектории. Я говорю о том, что будет происходить внутри практически любого достаточно мощного СИИ, просто из-за его достаточной мощности.
Симплиция: Но если вы говорите только о суперинтеллекте в конце времён…
Думимир: [_перебивает_] Это происходит значительно раньше.
Симплиция: …и ничего не утверждаете о существующих системах, то к чему были все аналогии про «актрис-инопланетяное» и «предсказаниях разговоров в баре»? Если это просто неуклюжая попытка объяснить обывателям, что LLM, которые неплохо проходят Тест Тьюринга – всё ещё не люди, то я, безусловно, согласна. Но кажется, будто вы считаете, что ваше заявление – куда более сильное и отвергает целые направления основанных на имитации стратегий согласования.
Думимир: [спокойнее] По сути, я думаю, вы систематически недооцениваете, в какой степени штуки, которые были оптимизированы вам нравиться, могут предсказуемо начать вести себя по-другому в тех ситуациях, в которых они не были оптимизированы вам нравиться. Особенно, когда они сами совершают серьёзную оптимизацию. Вы упомянули агента, который в компьютерной игре находил путь направо, вместо того, чтобы идти к монетке. Вы заявили, что с учётом устройства процесса обучения это неудивительно, и что это можно исправить, должным образом разнообразив обучающие данные. Но могли бы вы указать на этот конкретный провал заранее, а не задним числом? Когда вы будете иметь дело с трансформативно-мощными системами, вам надо будет указывать на такие вещи заранее.
Думаю, если бы вы понимали, что на самом деле происходит внутри LLM, вы бы видели тысячи и тысячи аналогов проблемы «идёт направо, а не к монетке». Суть аналогии с актрисой в том, что внешнее поведение не говорит вам о том, к каким целям стремится система. А перспективы и опасность СИИ именно в целях. И то, что системы глубинного обучения – запутанные непонятные чёрные ящики, которые нельзя целиком описать как «стремящиеся к целям» делает ситуацию хуже, а не лучше. Аналогия не зависит от того, есть ли у нынешних LLM интеллект или ситуационная осведомлённость, необходимые для смертоносных провалов. Аналогия не отрицает, что LLM могут приносить пользу в духе интерактивного учебника, так же как актрису можно научить давать правдоподобные ответы на вопросы к её персонажу без того, чтобы она стала этим персонажем.
Симплиция: Но это несовпадение всё равно должно при каких-то условиях показаться. Я жаловалась о личности Claude, но, честно говоря, это кажется исправимым через масштабирование ИИ-компанией не из Калифорнии. Если имитация человека такая поверхностная и неустойчивая, почему конституционный ИИ вообще работает? Вы заявляете, что «настоящая» доброта мешала бы предсказывать доброе поведение. Почему? Как мешала бы?
Думимир: [раздражённо] Доброта – не оптимальная стратегия для того, чтобы хорошо справиться с предобучением или с RLHF. Вы отбираете алгоритм по смеси выяснения, какой вывод правильно предскажет следующий токен и выяснения, какой вывод побудит человека нажать кнопку «палец вверх».
Конечно, у вашего ИИ будет модель доброго человека. Она полезна для предсказания того, что сказал бы добрый человек. А это предсказание полезно для того, чтобы выяснить, какой вывод направит-проманипулирует человеком, чтобы тот нажал нужную кнопку. Но нет причин ожидать, что эта модель в итоге будет контролировать весь ИИ! Это было бы как… если бы ваши убеждения о том, чего хочет от вам ваш босс, захватили контроль над вашим мозгом.
Симплиция: Мне это кажется осмысленным, если взять уже существующий консеквенциалистский разум, засунуть его в процесс обучения современной ML-модели и попытаться заставить его минимизировать функцию потерь. Но на самом деле происходит не это? LLM – не агент, у которого есть модель. LLM и есть модель.
Думимир: Пока что. Но любая система, способная на мощную когнитивную работу, будет для этого использовать перенаправляемые алгоритмы поиска общего назначения. А у них, раз уж они перенаправляемые, должно будет быть что-то больше похожее на «слот цели». Обновления градиентного спуска указывают в направление большего консеквенциализма.
Люди-оценщики, которые нажимают кнопку лайка в ответ на действия, которые для них хорошо выглядят, будут совершать ошибки. Обновления градиентного спуска указывают в сторону «обыгрывания обучения» – моделирования процесса обучения, который на самом деле выдаёт вознаграждение, а не в строну усвоения функции полезности, про которую земляне наивно надеялись, что процесс обучения приведёт к ней. Я очень, очень уверен, что любой ИИ, созданный чем-то хоть отдалённо похожим на нынешнюю парадигму, не будет в итоге хотеть того, чего хотим мы, даже если и сложно сказать в точности, когда всё пойдёт вразнос, или чего конкретно он будет хотеть.
Симплиция: Вы, может быть, и правы. Но мне кажется, что всё это зависит от эмпирических фактов о том, как работает глубинное обучение. Это не то, в чём вы можете быть убедиться, исходя из априорной философии. Тот аргумент, что систематические ошибки в выставлении людьми вознаграждения поощряют обыгрывание обучения вместо «правильного» поведения, и впрямь звучит правдоподобно. Как философия.
Но я не уверена, как соединить это с эмпирическими свидетельствами о том, что глубокие нейросети устойчивы к мощному зашумлению ярлыков: вы можете обучить на цифрах MNIST с двадцатью случайными ярлыками на каждый верный и всё равно получить хорошие результаты, пока для каждой цифры правильный ярлык встречается чуть чаще, чем самый частый неправильный. Если я экстраполирую это на передовые ИИ завтрашнего дня, почему бы не прийти к выводу, что искажённые оценки людей приведут к слегка сниженному качеству работы, а не к… погибели?
Экстраполяция эмпирических данных (полученных в обстоятельствах, возможно, неприменимых для интересующего явления) противоречит мысленных экспериментам (с допущениями, возможно, неприменимыми для интересующего явления). В таком случае я не уверена, что должно управлять моими ожиданиями. Может, оба варианта возможны для разных видов систем?
Обоснование почти-гарантированной-гибели, кажется, полагается на аргумент от подсчёта: ожидается, что мощные системы будут максимизаторами ожидаемой полезности; пространство возможных функций полезности астрономически-велико, и почти все они недружественны. Но я продолжаю возвращаться к примеру с арифметикой по модулю, потому что это крохотный пример, в котором мы знаем, что у обучающих данных получилось успешно указать на предполагавшуюся функцию ввода-вывода. Как я уже упоминала раньше, до наблюдения результата эксперимента это неочевидно. Вы могли бы совершить аналогичный аргумент от подсчёта, что глубокие нейросети должны всегда переобучаться, потому что функций, которые плохо обобщаются, намного больше. Но каким-то образом нейросеть стабильно предпочитает «правильное» решение, оно не появляется лишь в результате астрономически-невероятного совпадения.
Думимир: Конечно, для арифметики по модулю это так. Это факт об обучающем распределении, тестовом распределении и оптимизаторе. Это совершенно, абсолютно точно будет не так для «доброты».
Симплиция: Хоть, кажется, это работает для «текста» и «изображений»? Но, допустим, это правдоподобно. У вас есть эмпирические свидетельства?
Думимир: Вообще-то, да. Видите ли…
[На сцену выходит почтальон с конвертом и звонит в дверь.]
Думимир: Это, наверное, почтальон. Мне надо расписаться за денежный перевод. Сейчас вернусь.
Симплиция: Так, говорите, мы продолжим [поворачивается к зрителям] после следующего перевода?
Думимир: [подходя к двери] Полагаю, да. Но странно так это формулировать, перерыв буквально меньше, чем на две минуты.
[Симплиция выразительно на него смотрит.]
Думимир: [зрителям] Субъективных.
[Занавес.]
Антракт
- Короткая ссылка сюда: lesswrong.ru/3571