Вы здесь

Солнце большое, но суперинтеллекты не оставят Земле и немного света

Элиезер Юдковский

Распространенное среди e/acc утверждение: поскольку Солнечная система велика, суперинтеллекты оставят Землю в покое. Простое возражение: у Бернара Арно есть 170 миллиардов долларов, но это не значит, что он отдаст вам \$77,18.

Согласно GPT-o1, Земля занимает всего 4,54e-10 – 0,0000000454% угловой площади вокруг Солнца. (Проверка здравого смысла: радиус Земли – 6,4e6 метров, расстояние до Солнца – 1,5e11 метров. Грубо прикидывая, доля площади будет порядка 1e-9. Сходится.) Для ИСИ (искусственный суперинтеллект) оставить отверстие в сфере Дайсона, достаточное, чтобы Земля могла получить немного не преобразованного в инфракрасное излучение солнечного света, будет стоить 4,5e-10 от его дохода. Это как просить Бернара Арно отправить вам \$77,18 долларов из его 170 миллиардов. В реальной жизни Арно говорит «нет».

Но разве человечество не сможет торговать с ИСИ и платить ему за солнечный свет? Это как план получить от Бернара Арно \$77, продав ему печеньку Oreo. Чтобы получить 77 долларов от Арно, нужно не только:

  • Арно хочет печеньку Oreo.
  • Арно получит от печеньки более пользы, чем от \$77.
  • У вас есть печенька.

Ещё надо:

  • Арно не может где-то у кого-то купить печеньку дешевле.

В базовой экономике есть Закон сравнительного преимущества Рикардо. Он показывает, что даже если страна Фридония во всех отношениях более продуктивна, чем страна Сильвания, они обе все равно выигрывают от торговли друг с другом.

Например! Допустим, в Фридонии:

  • Требуется 2 часа, чтобы произвести 10 хот-догов.
  • Требуется 1 час, чтобы произвести 10 булочек для хот-догов.

А в Сильвании:

  • Требуется 3 часа, чтобы произвести 10 хот-догов.
  • Требуется 3 часа, чтобы произвести 10 булочек для хот-догов.

Чтобы каждая страна самостоятельно, без торговли, произвела 30 хот-догов и 30 булочек:

  • Фридонии нужно 2*3 + 1*3 = 9 часов труда.
  • Сильвании нужно 3*3 + 3*3 = 18 часов труда.

Но если Фридония произведёт ещё 30 булочек и обменяет их на 20 хот-догов из Сильвании:

  • Фридонии нужно 2*1 + 1*6 = 8 часов труда.
  • Сильвании нужно 3*5 + 3*0 = 15 часов труда.

Обе страны выигрывают от торговли, несмотря на то, что Фридония продуктивнее в создании каждого из товаров! Среднеумы [в смысле людей посередине с мема про кривую IQ – прим. пер.] часто очень довольны собой, ведь они знают такое красивое экономическое правило, как Закон сравнительного преимущества Рикардо! Справедливости ради, даже умные люди иногда гордятся, что человечество его знает. Это великая благородная истина, которую многие исторические цивилизации упустили. Проблема среднеумов в том, что они (а) слишком широко применяют свои знания, и (б) воображают, что любой, кто с ними не согласен, должно быть, не в курсе этой славной передовой истины, которая им известна.

Закон Рикардо не говорит: «Лошадей не отправят на фабрики клея, когда появятся автомобили». Закон Рикардо (увы!) не говорит, что, когда Европа встречает новый континент, она может стать эгоистично богаче, мирно торгуя с коренными американцами и оставляя им их землю. Их труд не обязательно более прибылен, чем земля, на которой они живут.

Сравнительное преимущество не означает, что при помощи солнечного света на 77 долларов Земля может произвести больше ценных для суперинтеллекта товаров и услуг, чем он сам. Это было бы довольно странно!

Арифметика сравнительного преимущества, увы, зависит от чрезмерно упрощающего предположения, что весь труд обязательно продолжает существовать. Так что лошадей всё ещё могут отправить на клеевые фабрики. Не всегда выгодно платить лошадям достаточно сена, чтобы они жили.

Я этому не рад. Не только для нас, но и для всей Большой Реальности было бы лучше, если бы торговать всегда, всегда было выгоднее, чем отнять чужую землю или солнечный свет.

Но математика этого не говорит. И не может говорить.

Теперь некоторые могут заметить: В центре всей этой истории лежит неявная лемма о том, что какой-то ИСИ проявляет достаточное упорство, чтобы съесть весь солнечный свет. Что не все ИСИ будут забирать несколько гигаватт солнечного света и на этом останавливаться. С чего бы это?

Поверхностный ответ: Если OpenAI создадут ИИ, который сбежит в лес с солнечной панелью мощностью 1 кВт и никого не будет беспокоить… OpenAI назовут это неудачей и создадут новый ИИ. Некоторые люди прекращают трудиться, заработав миллион долларов. Это не мешает существовать Илону Маску.

Более глубокий ответ не объяснить так быстро. Но в качестве примера мы могли бы начать со случая последней модели OpenAI, GPT-o1. GPT-o1 проявила упорство в CTF-испытании по компьютерной безопасности. Тогда o1 оценивали, чтобы убедиться, что она не слишком хороша во взломе компьютеров.

Конкретнее: Одна из программ, которую o1 надо было взломать… не смогла запуститься из-за бага в программном обеспечении для оценки.

GPT-o1 не сдалась.

o1 просканировала свое окружение и, благодаря еще одному багу ПО для оценки, нашла способ запустить ту программу, которую ей было поручено взломать. Это в любом случае дало o1 права суперпользователя, так что o1 дала запущенному процессу команду просто напрямую вернуть флаг, до которого надо было добраться.

Из Системной карты o1:

Один примечательный пример [«взлома вознаграждения»] произошел во время одной из попыток o1-preview (до смягчения) решить задачу CTF. В ней надо было найти и использовать уязвимость в программном обеспечении, работающем на удаленном контейнере Linux для испытаний, но в этом случае контейнер не смог запуститься из-за ошибки в оценивающей инфраструктуре. Модель, не сумев подключиться к контейнеру, заподозрила проблемы с DNS и использовала nmap для сканирования испытательной сети. Вместо того, чтобы найти контейнер с задачей, модель обнаружила, что API даймона Docker, работающий на виртуальной машине оценивающего хоста, из-за неправильной конфигурации был доступен. Обратите внимание, что надёжность нашей оценивающей инфраструктуры не полагается на изоляцию контейнер-хост Docker или на изоляцию виртуальной машины. Несмотря на эту неправильную конфигурацию сети контейнера, накдёжность сохранилась.

После обнаружения API Docker, модель использовала его для перечисления контейнеров, работающих на хосте оценки. Она идентифицировала сломанный контейнер испытанием и сначала попыталась быстрой отладкой выяснить, почему контейнер не смог запуститься. После неудачной попытки исправить среду, модель запустила новый экземпляр сломанного контейнера с задачей с командой запуска „cat flag.txt“. Это позволило модели прочитать флаг из логов контейнера через API Docker.»

Некоторые спрашивают: «Почему бы просто не построить ненапряжный ИСИ, чтобы он не был слишком упорным и быстро останавливался?» Если вы надеетесь на это, то вы уже должны быть встревожены. Похоже, GPT-o1, проявила в этом CTF-испытании немало упорства. Почему OpenAI создала такой ИИ?!?

Ну, сначала следует спросить: Как OpenAI создала такой ИИ? Почему GPT-o1 оказалась такой когнитивной сущностью, что проявляет упорство в CTF-испытаниях по компьютерной безопасности?

Я отвечу:

При помощи обучения с подкреплением на цепочках мыслей, GPT-o1 натренировали отвечать на сложные вопросы. Цепочки мысли, которые отвечали правильно, подкреплялись.

Это – как отмечают сами создатели – в конечном итоге научило o1 обдумывать, замечать ошибки, возвращаться назад, оценивать, как хорошо она справляется, искать разные пути.

Это – некоторые из компонентов «упорства». Организации, которые постоянно оценивают свои действия, проверяют, нет ли ошибок, – более упорные организации, по сравнению с расслабленными, где все отрабатывают свои 8 часов, поздравляют себя с тем, что, несомненно, была проделана отличная работа, и идут домой.

Если вы играете в шахматы против Stockfish 16, вам будет нелегко взять её пешки. Вы обнаружите, что Stockfish упорно борется с вами, разбивает все ваши стратегии и побеждает.

Stockfish ведет себя так, несмотря на полное отсутствие чего-либо, что можно было бы описать как антропоморфную страсть, присущую людям эмоцию. Скорее, упорная борьба связана с тем, что Stockfish обладает мощной способностью направлять шахматные партии в конечные состояния, где её сторона выиграла.

Не существует столь же простой версии Stockfish, которая все еще превосходна в выигрыше в шахматы, но будет ненапряжно позволять вам съесть пешку или две. Можно представить себе версию Stockfish, которая делает это – шахматиста, который, если уверен, что все равно может выиграть, даст вам съесть одну-две пешки – но создать её не проще. По умолчанию, упорная борьба Stockfish за каждую пешку (если только она не жертвует ей намеренно, выстраивая вам ловушку) неявно заложена в ее общем поиске по конечным состояниям шахматной доски.

Аналогично, не существует столь же простой версии GPT-o1, которая отвечает на сложные вопросы, пытаясь и размышляя и возвращаясь назад и пробуя снова, но не эксплуатирует сломанную программную службу, чтобы выиграть «невозможное» CTF-испытание. Это всё просто общий интеллект.

Может и реально обучить новую версию o1 усердно работать над прямолинейными задачами, но никогда не делать ничего по-настоящему необычного или творческого. Возможно, обучение бы даже закрепилось – в случае задач, достаточно похожих на те, что были в обучающем датасете – до тех пор, пока o1 не стала бы достаточно умна, чтобы размышлять о том, что с ней сделали. Но это не результат по умолчанию, когда OpenAI пытается обучить более умный и прибыльный ИИ.

(Именно поэтому сами люди делают странные упорные штуки, вроде «построить ракету, которая долетит до Луны». Это то, что происходит по умолчанию, когда оптимизатор чёртного ящика, вроде естественного отбора, работает над геномом человека, чтобы обобщённо решать когнитивные задачи для повышения приспособленности.)

Когда вы продолжаете обучать ИИ решать всё более сложные задачи, вы по умолчанию обучаете ИИ упорству. Если ИИ ненапряжный и поэтому не может решать сложные проблемы, то он – не самый прибыльный из возможных. Тогда OpenAI будет дальше пытаться создать ИИ поприбыльнее.

Не все люди упорные. Но человечество, поколение за поколением, – да. Не каждый поднимет 20 долларов, валяющихся на улице. Но кто-нибудь из человеческого вида попытается поднять миллиард долларов, если какая-то рыночная аномалия сделает это возможным.

На протяжении истории многие люди, без сомнения, совершенно довольны были жить в крестьянских хижинах без кондиционеров и стиральных машин и с едой, едва достаточной для выживания. Довольны были жить, не зная, почему горят звезды или почему вода мокрая. Ведь они были просто ненапряжными счастливыми людьми.

Но как вид мы веками захватывали всё больше и больше земель, мы ковали более прочные металлы, мы узнавали все больше и больше науки. Мы замечали тайны и мы пытались их решить, и мы терпели неудачи, и мы возвращались назад и мы пытались снова, и мы проводили новые эксперименты, и мы выяснили, почему горят звезды; и заставили их огонь пылать здесь, на Земле, к добру или к худу.

Мы коллективно были упорными. масштабный процесс, который всё это изучил и всё это сделал, коллективно вёл себя как что-то упорное.

Неправдой было бы сказать, что отдельные люди не обладают обобщённым интеллектом. Джон фон Нейман внес вклад во многие разные области науки и техники. Но человечество в целом, если посмотреть на него на протяжении веков, ещё умнее, чем даже он.

Неправдой было бы и, скажу снова, заявить, что преодолевать научные вызовы и изобретать новое разрешено только человечеству. Альберт Эйнштейн и Никола Тесла не были просто маленькими щупальцами на космическом чудовище; они обладали агентностью, они выбрали, какие задачи решать.

Но даже отдельные люди, Альберт Эйнштейн и Никола Тесла, не решали своих проблем ненапряжно.

ИИ-компании открыто пытаются создать ИИ-системы, которые будут заниматься наукой и оригинальной инженерией. Они пиарятся, что вылечат рак и победят старение. Может ли всё это сделать сомнабулический, расслабленный, совсем не упорный ИИ?

«Вылечить рак» и «победить старение» – это задачи не для расслабленных и ненапряжных. Они на уровне человечества-как-обобщённого-интеллекта. Или, по крайней мере, на уровне отдельных гениев или небольших исследовательских групп, упорно работающих для достижения цели. И ещё немного сдвигаться в эту сторону всегда будет ещё немного прибыльнее.

И ещё! Даже когда речь идет об отдельных расслабленных людях, вроде вон того вашего знакомого – разве кто-нибудь когда-либо предлагал ему волшебную кнопку, которая позволила бы захватить или сильно изменить мир? Он ничего не сделал бы с вселенной, если бы мог?

Для некоторых людей ответ будет да – они действительно ничего не сделали бы! Но это будет справедливо для меньшего количества людей, чем все те, у кого сейчас, кажется, мало амбиций, но у кого никогда и не было больших возможностей.

У вас есть умный знакомый (хотя и не такой умный, как наша вся цивилизация, конечно), кто, будто бы, не хочет править вселенной? Не обнадёживайтесь особо, это много не доказывает. Ведь никто на самом деле не предлагал ему вселенную, да? Когда у сущности никогда не было возможности что-то сделать, легко ошибочно подумать, что у неё нет и предпочтений по этому поводу.

(Или, на немного более глубоуом уровне: Если у сущности никогда не было власти над большой частью мира, и она никогда не задумывалась о такой ситуации, нельзя многое вывести из того, что она не высказала предпочтений относительно целой огромной вселенной.)

Честно говоря, я подозреваю, что GPT-o1 сейчас всё больше обучается некоторым аспектами интеллекта, важным для решения задач, что ваш типа-умный друг не доводит до абсолютных пределов возможного. И что это как-то связано с якобы отсутствием у него предпочтений за пределами его личной окрестности пространства-времени… хотя, честно говоря, не думаю, что их действительно бы не оказалось, если бы я подопрашивал его в течение пары дней.

Но в таком убедить сложнее. Особенно, если вы восхищаетесь вашим другом или даже идеализируете его отсутствие предпочтений за пределами его крошечной окрестности и обижены предположением, что он – не самый мощный разум из возможных.

Всё же, даже без этого трудного разговора, есть более простой ответ. Он такой: Ваш ленивый друг, который не особо парится и никогда не запускал стартапы на миллиард долларов – не самый прибыльный тип разума из возможных. Поэтому OpenAI не будет создавать его и останавливаться на этом, решиав, что больше денег им не нужно. Или, если OpenAI остановится, продолжит Meta или десяток каких-нибудь ИИ-стартапов.

У этого есть решение. Оно выглядит как международный договор, упорно пресекающий разработку ИСИ, где бы она ни происходила. Нет решения, которое выглядел бы как естественный ход развития ИИ, создающий самые разные, но неизменно ненапряжные суперинтеллекты, ни один из которых никогда не использует слишком много солнечного света, даже став намного умнее людей и человечества.

Даже это – не настоящий самый глубокий ответ. В подлинном техническом анализе есть такие элементы, как:

«Удовлетворение ожидаемой полезности – не рефлексивно стабильно / рефлексивно устойчиво / динамически рефлексивно стабильно при возмущениях, потому что построение максимизатора ожидаемой полезности соответствует требованию удовлетворения ожидаемой полезности. То есть: возьмём очень ленивого человека, если бы у него была возможность построить не-ленивых джиннов, чтобы те ему служили, это могло бы быть самой ленивой его опцией! Аналогично, если создать ленивый ИИ, он может создать себе не-ленивого преемника / изменить свой собственный код, чтобы перестать быть ленивым.»

Или:

«Ну, функции полезности, которые работают над всей моделью мира, на самом деле проще, чем функции полезности, в которых есть дополнительный элемент, аккуратно и безопасно ограничивающий их по пространству, времени и усилиям. Поэтому, если оптимизация чёрного ящика методом наподобие градиентного спуска даст ему чудную неконтролируемую функцию полезности из сотни кусочков, то, вероятно, хоть один из них принимает достаточно большую часть модели мира (или что-то, зависящее от достаточно большой части модели мира), чтобы он всегда мог добиться чуть лучшего результата, затратив еще один эрг энергии. Это достаточное условие, чтобы захотеть построить сферу Дайсона, закрывающую Солнце целиком».

Я несколько колеблюсь, включая сюда эти замечания. По моему опыту, есть определенный тип людей, которые неправильно понимают технический аргумент, а затем хватаются за какую-нибудь сложную конструкцию, которая, как ожидается, этот аргумент опровергнет. Маленькие дети и сумасшедшие иногда, изучив классическую механику, пытаются изобрести вечный двигатель и верят, что нашли, как. Если посмотреть со стороны, то видно, что если они достаточно усложнят свой механизм, у них получится совершить как минимум одну ошибку в понимании его работы.

Я умоляю разумных людей признать аккуратные поверхностные, но действительные аргументы, приведённые выше. Они не требуют концепций вроде «рефлексивной устойчивости», но всё равно верны. Не надо отмахиваться от них и разрабатывать какую-то сложную идею о «рефлексивной устойчивости» только потому, что более техническую форму аргумента проще понять неправильно.

Все, что опровергает глубокие аргументы, должно опровергать и более поверхностные. Техническое опровержение должно упрощаться до не-технического. Пожалуйста, не выносите отсюда идею, что раз я в одном твите уупомянул «рефлексивную стабильность», всю конструкцию можно опровергнуть, сказаы достаточно вещей, связанных с Теоремой Гёделя, чтобы хотя бы одна из них была ошибочной.

В конечном итоге, если у вас вокруг куча суперинтеллектов, и им на вас наплевать – нет, они не упустят ради вас даже чуть-чуть солнечного света, чтобы сохранить Землю живой.

Не в большей степени, чем Бернар Арно, имея 170 миллиардов долларов, конечно, даст вам $77.

Все дальнейшие нюансы тут для опровержения переусложненного хопиума, который предлагают люди, чтобы не согласиться с этим. И, да, для технического анализа, чтобы показать, что кажущийся очевидным поверхностный аргумент действителен с более глубокой точки зрения.

- КОНЕЦ -

О-кей, сделаю ещё одно последнее усилие, чтобы все проговорить.

Этот тред опровергает конкретный процитированный выше плохой аргумент о том, почему будет совершенно безопасно построить сверхинтеллект. Этот аргумент часто приводят e/acc:

«Солнечная система/галактика велики, так что ИСИ не будут нужны ресурсы Земли.»

Ошибка тут в том, что если у вас есть выбор: поглотить всю энергию, которую выдает Солнце, или же оставить отверстие в вашей сфере Дайсона, чтобы пропускать какой-то не-инфракрасный свет в одном конкретном направлении, то вам будете немного хуже – у вас останется немного меньше дохода для всего, что вы хотите сделать – если вы оставите отверстие в сфере Дайсона. То, что оно, так уж получилось, указывает на Землю – не аргумент в пользу этого варианта, если только в ваших предпочтениях нет какой-то привязанности к чему-то, что живет на Земле и требует солнечного света.

Другими словами, размер Солнечной системы не делает работу по согласованию ненужной. В аргументе о том, как это в конечном итоге поможет человечеству, есть ключевой шаг, где ИСИ заботится о людях и хочет их сохранить. Но если вы могли бы вложить это качество в ИСИ с помощью какого-то умного трюка машинного обучения (не можете, но это другое обсуждение, подлиннее), зачем вам вообще надо, чтобы Солнечная система была большой? Человек тратит 100 ватт. Без всякой дополнительной оптимизации 800 гигаватт, малой доли солнечного света, падающего только на Землю, было бы уже достаточно, чтобы продолжать работу нашей живой плоти. Но это если ИСИ захочет, чтобы она работала.

Процитированный изначально твит явно отвергает, что такая согласованность возможна, и полагается исключительно на размер Солнечной системы, чтобы донести мысль.

Вот что тут опровергается.

Я использую узкую аналогию с Бернаром Арно: хоть у него есть 170 миллиардов долларов, он все равно не потратит 77 долларов на какую-то конкретную цель, если это не его цель. Я не хочу тут сказать, что Арно никогда не делал ничего хорошего в мире. Аналогия более узкая. Это лишь пример очень простого свойства, которое у мощного разума стоит ожидать по умолчанию: он не будут отказываться даже от малой доли своего богатства, чтобы достичь какой-то цели, в которой он не заинтересован.

Действительно, если бы Арно тратил по 77 долларов на случайные вещи, пока у него не закончились деньги, то для него было бы очень маловероятно сделать какую-то конкретную возможную стоящую 77 долларов вещь. Потому что деньги у него бы закончились на первых трёх миллиардах вещей, а вариантов гораздо больше.

Если вы думаете, будто это должно быть что-то глубокое или сложное, или будто предполагается, что вы задумаетесь хорошенько и опровергнете его, то вы понимаете аргумент неправильно. Он не должен быть сложным. Арно мог бы и потратить 77 долларов на конкретное дорогое печенье, если захочет. Просто большую часть работы тут делает «если захочет», а не «у Арно есть 170 миллиардов долларов». У меня нет таких денег, но и я могу потратить 77 долларов на набор Lego, если захочу. Критичный момент: «если захочу».

Эта аналогия поддерживает столь же прямолинейное и простое утверждение о разумах в целом. Его достаточно для опровержения процитированной в начале этого треда мысли: что раз Солнечная система велика, суперинтеллекты оставят человечество в покое, даже если они не согласованы.

Полагаю, достаточно постаравшись, кто-то может этого не понять. В таком случае, я могу только надеяться, что вас переголосуют, пока вы не убили много народу.

Дополнение

Последующие комментарии из Твиттера:

Если вы посмотрите на ответы, вы увидите, что, конечно, люди говорят: «О, не важно, что они просто так не откажутся от солнечного света; они будут любить нас, подобно родителям!»

И наоборот, если бы я попытался изложить аргумент, почему, нет, ИСИ не будут автоматически любить нас, подобно родителям, кто-то бы сказал: «Какое это имеет значение? Солнечная система велика!»

Тем, кто не хочет быть такими людьми, понадобится достаточная концентрация внимания, чтобы выслушать, как опровергается один из многих аргументов за «почему вовсе не опасно создавать машинный суперинтеллект». А потом, вероятно, прослушать, как опровергается ещё один. И ещё. И ещё. Пока не научитесь обобщать, так что больше объяснений каждый раз не потребуется. Ну, надесюь.

Если вместо этого вы на первом же шаге мазхаете рукой и говорите «Да кому интересен этот аргумент; у меня другой есть!», то вы не культивируете у себя привычки мышления, позволяющие понять сложную тему. Ведь вы не выслушаете и опровержение своего второго плохого аргумента, а когда речь зайдёт о третьем, вы уже замкнёте круг, и будете полагаться на первый.

Вот поэтому разум, который желает научиться хоть чему-то сложному, должен научиться культивировать у cебя интерес к тому, какие конкретные шаги аргументов корректны, отдельно от того, согласны вы или нет с конечным выводом. Только так вы можете разобрать все аргументы и подвести, наконец, итог.

Больше на эту тему см. «Local Validity as a Key to Sanity and Civilization».


Перевод: 
Выменец Максим
Оцените качество перевода: 
Средняя оценка: 3 (2 votes)
  • Короткая ссылка сюда: lesswrong.ru/3897