Дополнительные материалы к "Если кто-то его создаст, все умрут"

В этом разделе будут публиковаться дополнительные материалы к книге Элиезера Юдковского и Нейта Соареса «Если кто-то его создаст, все умрут» («If Anyone Builds It, Everyone Dies»).

Автор: 
Элиезер Юдковский, Нейт Соарес

Вступление

Элиезер Юдковский, Нейт Соарес

Введение: Что сложно, а что просто

Это первое онлайн-дополнение к книге Юдковского и Соареса «Если кто-то его сделает, все умрут». В нём часто задаваемые вопросы по каждой главе. А ещё углублённые разборы неключевых для книги деталей и исторической информации.

Тут много материала. Не стоит читать всё от начала до конца. Мы написали книгу так, чтобы она была самодостаточна и доносила всю основную мысль. Но если у вас есть конкретный вопрос, контраргумент или любопытство, и книга не смогла отдать ему должное, очень вероятно, вам поможет дополнение. Если мы упускаем что-то важное, запросите это здесь.

Часто задаваемые вопросы

Зачем писать книгу об угрозе вымирания от сверхчеловеческого ИИ?

Потому что ситуация действительно кажется серьезной и неотложной.

Если присмотреться к какой-то области, иногда можно увидеть приближение поворота истории.

В 1933 году физик Лео Силард первым понял, что цепные ядерные реакции возможны1. Так он сумел предсказать один из поворотов раньше остальных.

По нашему мнению, уже сейчас видно – ИИ ведёт нас к следующему повороту. И мы думаем, что если человечество не изменит курс, всё закончится плохо.

ИИ-лаборатории соревнуются, чтобы создать машины умнее любого человека раньше остальных. И у них очень значительный прогресс. Как мы обсудим в следующих главах, современные ИИ скорее выращиваются, чем конструируются. Они ведут себя так, как никто не просил и не хотел. И приближаются к тому, чтобы стать способнее любого человека. Нам это кажется крайне опасной ситуацией.

Ведущие ученые в области ИИ вместе подписали открытое письмо. Они предупреждают общественность, что эту угрозу следует рассматривать как «глобальный приоритет, наряду с другими глобальными рисками, такими как пандемии и ядерная война». Такое беспокойство — не редкость. Его разделяет почти половина специалистов (см. ниже «Эксперты по ИИ о катастрофических сценариях»). Мы надеемся, что даже если вы изначально настроены скептически, то такие заявления со стороны экспертов и высокие ставки, если их опасения верны, ясно показывают, что тема заслуживает серьезного обсуждения.

Тут лучше взвешивать аргументы, а не слепо доверять интуиции. Если специалисты не ошибаются, — мир в невероятно опасном положении. Остаток книги мы будем излагать аргументы и доказательства, стоящие за этими предупреждениями.

Мы не считаем ситуацию безнадежной. Мы написали эту книгу в попытке изменить траекторию, по которой, судя по всему, движется человечество. Мы думаем, что есть надежда решить проблему.

И первый шаг к решению — понять ее.

Вы думаете, что ChatGPT может нас всех убить?

Нет. Мы беспокоимся о будущих достижениях в области ИИ.

Сейчас вы читаете эту книгу, в частности, потому, что такие разработки, как ChatGPT, сделали ИИ заметной новостью. Мир начинает обсуждать прогресс ИИ и то, как он влияет на общество. Это позволяет нам говорить об ИИ умнее человека, и о том, что нынешняя ситуация выглядит неблагоприятно.

Мы, авторы, давно работаем в этой области. Прогресс ИИ за последние годы повлиял на наши взгляды, но опасения зародились ещё до ChatGPT и других больших языковых моделей. Мы уже десятилетиями (Соарес с 2013 года, Юдковский с 2001) занимаемся техническими исследованиями и пытаемся сделать так, чтобы создание ИИ умнее человека закончилось хорошо. По некоторым признакам мир может быть готов к такому разговору. Правдоподобно, что разговор этот необходим сейчас. А иначе человечество может упустить окно возможности для реакции.

Область ИИ развивается. В какой-то момент (мы не знаем, когда) она дойдёт до создания ИИ умнее нас. Это открытая цель всех ведущих ИИ-компаний:

Сейчас мы уверены, что знаем, как создать CИИ [сильный искусственный интеллект] в традиционном понимании […] Мы начинаем направлять наши усилия дальше, к суперинтеллекту в истинном смысле слова. Нам нравятся наши нынешние продукты, но мы тут собрались во имя славного будущего. С суперинтеллектом всё остальное возможно.

Сэм Альтман, генеральный директор OpenAI

Я думаю, что [мощный ИИ] может появиться уже в 2026 году. […] Под мощным ИИ я имею в виду ИИ-модель […] с такими свойствами: По чистому интеллекту она умнее лауреата Нобелевской премии в большинстве важных областей — биологии, программировании, математике, инженерии, писательстве, и так далее. Это значит, что она может доказывать новые математические теоремы, писать очень хорошие романы, с нуля программировать сложные кодовые базы, и так далее.

Дарио Амодей, генеральный директор Anthropic

В целом мы сосредоточены на создании полноценного общего интеллекта. Все возможности, которые я сегодня обсуждал – следствия эффективного выполнения задачи создания общего интеллекта.

Марк Цукерберг, генеральный директор Meta (незадолго до того, как компания объявила о проекте «суперинтеллекта» на 14,3 миллиарда долларов)

Я думаю, что в следующие пять-десять лет есть, вероятно, 50-процентный шанс на то, что мы бы определили как СИИ.

Демис Хассабис, генеральный директор Google DeepMind

Уэс: Итак, Демис, вы пытаетесь вызвать взрыв интеллекта?\ Демис: Нет, ну, не неконтролируемый…

Уэс Рот (интервьюер) и Хассабис

Их дела и вложения не расходятся со словами. Microsoft, Amazon и Google объявили о планах потратить на ИИ-дата-центры от 75 до 100 миллиардов долларов за 2025 год. xAI, выкупивший X (бывший Twitter), оценивается на 80 миллиардов долларов – примерно в два раза выше, чем сам X. Вскоре после покупки они собрали 10 миллиардов долларов на огромный дата-центр и развитие своего ИИ – Grok. OpenAI в партнёрстве с Microsoft и другими объявили о проекте Stargate стоимостью в 500 миллиардов долларов.

Генеральный директор Meta Марк Цукерберг заявил, что его компания планирует потратить 65 миллиардов долларов на ИИ-инфраструктуру в этом году и «сотни миллиардов» на ИИ-проекты в ближайшие годы. Meta уже инвестировала 14,3 миллиарда долларов в ScaleAI и наняла его генерального директора для управления свежесозданными Meta Superintelligence Labs. Ещё они переманили больше дюжины ведущих исследователей из конкурирующих лабораторий2 предложениями до 200 миллионов долларов в год каждому.

Это всё не означает, что до ИИ умнее человека уже совсем близко. Но показывает, что все крупные компании очень, очень стараются его создать. И такие ИИ, как ChatGPT – результаты этой исследовательской программы. Компании не собираются ограничиваться чат-ботами. Их цель – получить суперинтеллект, а эти боты — лишь промежуточный пункт.

После десятилетий попыток лучше понять задачу и серьёзно обдумать будущее развитие, наше мнение таково: нет принципиального барьера для того, чтобы исследователи хоть завтра добились прорыва и успешно создали ИИ умнее человека.

Мы не знаем, будет ли этот порог действительно преодолён скоро или через десятилетие. История показывает – предсказать время появления новой технологии гораздо сложнее, чем тот факт, что она вообще будет разработана. Но мы считаем, что аргументы в пользу опасности с лихвой оправдывают агрессивную международную реакцию уже сегодня. Эти аргументы, конечно, есть в книге.

Но люди же постоянно паникуют и слишком остро реагируют на происходящее?

Да. Но это не значит, что опасности нет.

Порой люди остро реагируют на проблемы. Некоторые просто фаталисты. Иногда паника беспочвенна. Всё это не означает, что мы живём в абсолютно безопасном мире.

Германия в 1935 году была неподходящим местом для евреев, цыган и других групп людей. Некоторые разглядели это вовремя и уехали. Другие решили, что тут какое-то паникёрство, и погибли.

Угроза ядерного уничтожения была реальной, но человечество справилось с вызовом, и холодная война не перешла в горячую.

Хлорфторуглероды действительно прожигали дыру в озоновом слое, пока их успешно не запретили международным договором. Потом озоновый слой восстановился.

Иногда люди предупреждают о выдуманных опасностях. А иногда – о реальных.

Человечество не всегда слишком остро реагирует на вызовы. Не всегда и недооценивает их. Порой люди умудряются делать и то, и другое одновременно — например, в случае, когда страны готовили для следующей войны огромные линкоры, хотя должны были строить авианосцы. Простого решения вроде «игнорируй все предполагаемые технологические риски» или «считай все технологические риски реальными» не существует. Чтобы понять, что же правда, нужно изучить каждый случай подробно.

(Больше на эту тему читайте во введении к книге.)

Когда будут разработаны эти тревожащие ИИ?

Знание о том, что технология грядёт, не говорит, когда именно она появится.

Многое, что люди просят нас предсказать, мы на самом деле знать не можем. Когда Лео Силард в 1939 году написал послание с предупреждением США о ядерном оружии, он не мог включить и не включил туда никакого утверждения вроде «Первая ядерная бомба будет готова к испытательному взрыву через шесть лет».

Это была бы очень ценная информация! Но даже когда ты, как Силард, первым правильно предсказываешь ядерные цепные реакции, даже когда ты самый первый видишь, что технология возможна и значима – ты не можешь точно предсказать, когда эта технология появится.

Есть простые прогнозы и сложные. Мы не претендуем на то, что можем делать сложные – например, точно предсказать, когда появятся опасные ИИ.

Экспертов постоянно удивляет, как быстро ИИ развивается.

Незнание того, когда ИИ появится, не равно знанию, что времени ещё много.

В 2021 году прогностическое сообщество на сайте Metaculus оценивало, что первый «по-настоящему сильный ИИ» появится в 2049 году. Через год, в 2022, этот коллективный прогноз сдвинулся на двенадцать лет назад — к 2037. Ещё через год, в 2023, он сдвинулся ещё на четыре года назад — к 2033. Снова и снова быстрые темпы развития ИИ удивляли прогнозистов. Предсказания кардинально менялись из года в год.

Это явление не ограничивается Metaculus. Организация 80,000 Hours задокументировала много случаев, когда у экспертов-прогнозистов быстро сокращались оценки времени. Даже суперпрогнозисты, которые постоянно выигрывают турниры по прогнозированию и часто превосходят в способности к предсказанию будущего специалистов по релевантной области, давали лишь 2,3% вероятности того, что ИИ получит золотую медаль Международной математической олимпиады к концу 2025 года. ИИ получил золотую медаль Международной математической олимпиады в июле 2025 года.

Интуитивно может казаться, что до ИИ умнее человека ещё десятилетия. Но ведь в 2021 году казалось, что до ИИ уровня ChatGPT ещё десятилетия, а потом он внезапно появился. Кто знает, когда так же внезапно появятся новые принципиальные улучшения ИИ? Возможно, ещё через десять лет. Или завтра. Мы не знаем, сколько времени это займёт, но некоторые исследователи всё сильнее тревожатся, что немного. Мы не претендуем на особые знания в этом вопросе, но считаем, – человечеству следует действовать поскорее. Неизвестно, сколько ещё у нас будет предупреждений.

Подробное описание, как возможности ИИ могут лавинообразно нарастать почти без предупреждения см. в главе 1. А описание современных парадигм ИИ и того, «дойдут ли они до конца» — в главе 2.

К заявлениям СМИ о том, что может и не может скоро произойти, лучше относиться скептически. (Возможно, это уже произошло!)

Через два года после того, как Уилбур Райт с унынием предсказал, что до механического полёта ещё тысяча лет, New York Times уверенно заявила, что миллион3. Через два месяца и восемь дней братья Райт полетели.

Скептики часто очень уверенно говорят, что ИИ никогда не сможет соперничать с людьми в чём-то конкретном. Несмотря на то, что недавний прогресс машинного обучения показал, — по всё большему числу тестов-бенчмарков ИИ сравнялись с человеческими результатами (или превзошли их). Например, как минимум с конца 2024 года известно, что современные ИИ часто способны распознать сарказм и иронию из текста или даже невербальных сигналов. Это не помешало New York Times в мае 2025 года повторить заявление: «…У учёных нет твёрдых доказательств того, что сегодняшние технологии способны хотя бы на некоторые из простейших вещей, которые делает мозг, — например, распознавать иронию»4.

Общий вывод: многие будут утверждать, что знают – ИИ умнее человека вот-вот появится, или наоборот, что до него ещё невообразимо далеко. Но неуютная реальность такова, что никто сейчас этого не знает.

Хуже того. Велики шансы, что и не узнает, пока для международного сообщества не станет слишком поздно что-то предпринимать.

Предсказать время следующего технологического прорыва ужасно трудно. Мы знаем, что ИИ умнее человека смертельно опасен. Но если нам нужно знать, в какой день недели он появится, то увы. Надо уметь действовать в условиях неопределённости, иначе мы не будем действовать вообще.

Можно ли по прошлому экстраполировать, когда мы создадим ИИ умнее человека?

Для этого у нас недостаточно понимания интеллекта.

Иногда успешные предсказания делаются так: берём на графике прямую линию, которая была стабильной много лет, и говорим, что она так и продолжится как минимум ещё год-два.

Так получается не всегда. Тренды меняются. Но это часто работает неплохо. Так люди делают успешные предсказания.

Недостаток этого метода в том, что часто мы хотим знать не «насколько высоко поднимется эта линия на графике к 2027 году?», а скорее «Что изменится качественно, если эта линия продолжит подниматься?». Какой её уровень соответствует каким важным реальным результатам?

В случае с ИИ мы просто не знаем. Довольно легко найти какой-нибудь параметр искусственного интеллекта, образующий на графике прямую (например, «перплексию», и провести эту линию дальше. Но никто не знает, какая будущая «перплексия» соответствует какой качественной способности играть в шахматы. Люди не могут предсказать это заранее – приходится запустить ИИ и выяснить так.

Никто не знает, где на этом графике проходит линия «Теперь он способен убить всех».Можно только запустить ИИ и выяснить. Поэтому экстраполяция прямой линии на графике нам не поможет. (Даже до того, как график потеряет актуальность из-за прогресса алгоритмов.)

Поэтому в книге мы не занимается экстраполяцией линий на графиках, чтобы точно сказать, когда кто-то применит 10²⁷ операций с плавающей точкой для обучения ИИ, или к чему это приведёт. Такое предсказать сложно. Книга сосредоточена на том, что, как нам кажется, предсказать просто. Это довольно узкая область. В ней мы можем совершить небольшое число важных предсказаний, но это не даёт нам права делать уверенные предположения про всё что угодно в будущем.

Чем мотивированы авторы? Нет ли у них конфликта интересов?

В среднем мы не ожидаем заработать на книге. И ещё – мы будем рады, если её тезис ошибочен.

Мы (Соарес и Юдковский) получаем зарплату в Институте исследований машинного интеллекта (MIRI). Он финансируется пожертвованиями людей, считающих эту тему важной. Возможно, книга привлечёт пожертвования.

Но у нас есть и другие возможности зарабатывать. Мы занимаемся написанием книг не ради денег. Наш аванс за эту книгу целиком пошёл на её рекламу, а все гонорары достанутся MIRI, чтобы возместить рабочее время и усилия сотрудников.5

И конечно, оба автора были бы в восторге, если бы пришли к выводу, что наша цивилизация в безопасности. Мы бы с удовольствием вышли на пенсию или стали зарабатывать как-то иначе.

Мы не думаем, что нам было бы трудно изменить мнение, если бы доказательства это оправдывали. Уже меняли. MIRI был основан (под названием «Институт сингулярности») как проект по созданию суперинтеллекта. Юдковскому понадобился год, чтобы понять – само по себе это ничем хорошим не кончится. И ещё пара лет, чтобы понять – довольно сложно заставить это дело кончиться хорошо.

Мы уже меняли своё мнение, и были бы рады сделать это снова. Просто мы не считаем, что это оправдано свидетельствами.

Мы не думаем, что ситуация безнадёжна. Но мы действительно считаем проблему реальной, и думаем, что если мир не примется за неё всерьёз, ему грозит ужасная опасность.

Подчеркнём: для понимания, находится ли ИИ на пути к тому, чтобы убить нас всех, нужно думать про ИИ. Если думать только о людях, можно найти причины отвергнуть любой источник. Академики оторваны от жизни; корпорации пытаются раздуть ажиотаж; некоммерческие организации хотят собрать деньги; любители не знают, о чём говорят.

Но если пойти этим путём, то финальные убеждения будут определяться тем, кого вы решили отвергнуть. Вы не будете давать аргументам и свидетельствам шанса изменить ваше мнение, если оно неверно. Чтобы понять, где правда, не обойтись без оценки аргументов и их собственной осмысленности, независимо от того, кто их выдвинул.

Наша книга не начинается с дешёвого аргумента, что корпоративные руководители лабораторий ИИ заинтересованы убедить население, мол, ИИ безопасны. Она начинается с обсуждения ИИ. Позже в книге мы немного касаемся исторических случаев, когда учёные были слишком оптимистичны. Но мы никогда не говорим, что какие-то аргументы лучше игнорировать, потому что их авторы из ИИ-лаборатории. Мы обсуждаем некоторые реальные планы разработчиков и то, почему они по объективным причинам не сработали бы. Мы изо всех сил стараемся поговорить о реальных аргументах, потому что значимы именно они.

Если вы считаете нас неправыми, приглашаем вас показать, где конкретно. Мы считаем это более надёжным способом найти правду, чем переходить на личности и мотивации. Даже если самый предвзятый человек в мире говорит, что идёт дождь, это не значит, что вокруг солнечно.

Разве всё это про ИИ – не просто научная фантастика?

Распространённость темы в художественной литературе не особо о чём-то говорит.

ИИ умнее человека ещё не создан, но его изображали в фантастике. Мы не рекомендуем опираться на эти представления. Настоящий ИИ, скорее всего, будет мало похож на фантастический – в главе 4 мы разберём, почему.

ИИ – не первая технология, которую предвосхитила фантастика. Летательные аппараты тяжелее воздуха и полёты на Луну описали до их появления. Общую идею ядерного оружия предугадал Г. Уэллс, один из первых фантастов, в романе 1914 года «Освобождённый мир». Он ошибся в деталях: у Уэллса была бомба, и она мощно горела много дней, а не мгновенно взрывалась, оставляя смертельное излучение. Но у него была общая идея бомбы на ядерной, а не химической энергии.

В 1939 году Альберт Эйнштейн и Лео Силард отправили письмо президенту Рузвельту с призывом опередить Германию в создании атомной бомбы. Можно представить мир, где Рузвельт впервые узнал об идее ядерных бомб из романа Уэллса и отверг её как научную фантастику.

В реальности Рузвельт отнёсся к идее серьёзно – по крайней мере, достаточно серьёзно, чтобы создать «Урановый комитет». Это показывает, как опасно отвергать идеи лишь из-за того, что нечто похожее описал фантаст.

Научная фантастика может ввести в заблуждение и если считать её правдой, и если считать её ложью. Авторы-фантасты – не пророки, но и не анти-пророки, чьи слова гарантированно неверны. Обычно лучше игнорировать фантастику и оценивать технологии и сценарии сами по себе.

Чтобы предсказать, что на самом деле произойдёт, придётся честно обдумать аргументы и взвесить свидетельства.

У ИИ точно будут странные последствия.

Мы одобряем мысль, что ИИ странный, что он нарушит статус-кво и изменит мир. Наши интуитивные соображения в некоторой степени адаптированы к миру, где люди – единственный вид, способный, например, на строительство электростанции. Где всю человеческую историю машины всегда были неразумными инструментами. Но мы можем быть очень уверены, как минимум, в том, что будущее с ИИ умнее человека не будет таким.

Крупные и долгосрочные изменения мира случаются нечасто. Эвристика «ничего никогда не происходит»6 обычно работает прекрасно, но случаи, когда она терпит неудачу – на них-то важнее всего обратить внимание. Весь смысл раздумий о будущем – предвосхитить что-то большое до того, как оно всё же произойдёт, чтобы можно было подготовиться.

Как обсуждалось во введении, один из способов преодолеть уклон в сторону статуса-кво – вспомнить историю.

Иногда отдельные изобретения кардинально меняют мир. Взять хоть паровой двигатель и другие технологии, появлению которых он поспособствовал во время Промышленной революции. Они быстро преобразили человеческую жизнь:

Будет ли появление действительно сильного ИИ аналогично влиятельным событием? Кажется, что искусственный интеллект будет ну хотя бы так же важен, как Промышленная революция. Среди прочего:

  • ИИ, вероятнее всего, сильно ускорит технологический прогресс. Как мы обсудим в главе 1, машины способны работать намного быстрее человеческого мозга. Люди могут совершенствовать ИИ (а потом ИИ сможет улучшать себя сам), пока машины не опередят людей в совершении научных открытий, изобретении новых технологий и подобном.
  • Всю историю человечества механизмы нашего мозга принципиально не менялись, даже при создании всё более впечатляющих инженерных достижений. Стоит ожидать, что многое изменится очень быстро, когда сам механизм познания начнёт совершенствоваться и станет способен улучшать себя.
  • Кроме того, как мы обсудим в главе 3, достаточно способные ИИ, скорее всего, будут иметь собственные личные цели. Будь ИИ просто людьми, только побыстрее и поумнее, их появление уже было бы грандиозным событием. Но ИИ будут, по сути, совершенно новым видом разумной жизни на Земле. Видом со своими целями, которые, вероятно (как мы обсудим в главах 4 и 5), существенно отклонятся от человеческих.

Было бы удивительно, если бы эти два мощных прорыва могли не перевернуть существующий мировой порядок. Для веры в «нормальное» будущее, кажется, надо думать, что машинный интеллект вообще никогда не превзойдёт человеческий. Что и раньше не казалось возможным. А в 2025 году в это гораздо труднее поверить, чем в 2015 или 2005.

Долгосрочные прогнозы и технологические изменения

Далёкое будущее тоже будет странным.

Если заглянуть в будущее достаточно далеко, оно обязательно будет странным. XXI век совершенно невероятен с точки зрения XIX века, а тот казался бы удивительным из XVII. ИИ ускоряет этот процесс и вводит нового игрока.

Один аспект будущего кажется сегодня предсказуемым: развитые технологические виды не останутся навечно привязанными к планете. Сейчас ночное небо полно звёзд, прожигающих свою энергию. Ничто не мешает жизни научиться путешествовать к ним и использовать эту энергию в своих целях.

Есть физические ограничения скорости таких путешествий, но не похоже, чтобы были ограничения на их осуществление вообще7. Ничто не мешает нам в итоге разработать межзвёздные зонды, способные добывать из вселенной ресурсы и создавать новые процветающие цивилизации, а заодно ещё больше самовоспроизводящихся зондов для колонизации других областей космоса. Если нас заменят ИИ, ничто не помешает им делать то же самое, подставьте только вместо «процветающих цивилизаций» их цели, какими бы они ни были.

Жизнь распространялась по мёртвым камням, пока не заселила всю Землю. Так же мы можем ожидать, что жизнь (или созданные ею машины) в конце концов заселит и необитаемые части вселенной. Тогда найти безжизненную звёздную систему будет так же странно, как сегодня найти на Земле безжизненный остров, лишённый даже бактерий.

Сейчас большая часть материи во вселенной, включая звёзды, расположена случайно. Но в достаточно далёком будущем основная часть материи почти наверняка будет расположена по определённому замыслу – согласно предпочтениям тех, кто сможет собрать и переделать звёзды.

Даже если ничто с Земли никогда не распространится по космосу, и даже если большинство разумных форм жизни в далёких галактиках никогда не покинет родную планету, одного овладевшего космическими путешествиями разума где угодно во вселенной хватит, чтобы зажечь искру и начать распространение по космосу. Он будет путешествовать к новым звёздным системам и использовать местные ресурсы для создания новых зондов – точно так же, как потребовался лишь один самовоспроизводящийся микроорганизм (плюс немного экспоненциального роста), чтобы превратить безжизненную планету в мир, где каждый остров наполнен жизнью.

Так что будущее не похоже на день сегодняшний. Более того, мы можем ожидать кардинальных отличий. Любые биологические или искусственные виды в поисках ресурсов неизбежно преобразят сами звёзды – хоть мы и мало что можем сказать о том, как выглядел бы такой вид и на какие цели пошли бы ресурсы вселенной.

Предсказать детали кажется трудной, почти невозможной задачей. Это сложно. Но предсказать преобразование вселенной в место, где большая часть материи собрана и направлена на некую цель – какой бы она ни была? Это проще, хоть и может показаться контринтуитивным с точки зрения цивилизации, едва начавшей извлекать ресурсы из звёзд.

Не стоит ожидать, что будущее через миллион лет будет похоже на 2025 год со стаей безволосых обезьян, копошащихся по поверхности Земли. Задолго до этого либо мы уничтожим себя, либо наши потомки отправятся исследовать космос8.

Человечество точно ждут странные времена. Вопрос только – когда.

Будущее настигнет нас быстро.

Технологии вроде ИИ означают, что будущее может постучаться в нашу дверь уже скоро, и очень громко.

По меркам истории до Нового времени Промышленная революция преобразила мир очень быстро. По меркам эволюционных процессов человек разумный преобразил мир очень быстро. По меркам космологических и геологических процессов жизнь преобразила мир очень быстро. Новые изменения тоже могут оказаться очень быстрыми по старым меркам.

Похоже, человечество приближается к следующему радикальному преобразованию, когда машины смогут начать переделывать мир на своих скоростях, намного превышающих биологические. В главах 1 и 6 мы ещё поговорим о том, насколько хорошо машинный интеллект мог бы сравниться с человеческим. Но, как минимум, нам нужно серьёзно рассмотреть возможность, что разработка машин умнее человека кардинально и очень быстро изменит мир. Подобное уже случалось, и не раз.

Расширенное обсуждение

Эксперты по ИИ о катастрофических сценариях

В опросе 2022 года среди 738 участников академических конференций по ИИ NeurIPS и ICML сорок восемь процентов посчитали: есть как минимум десятипроцентная вероятность, что результат развития ИИ будет «крайне плохим (например, вымирание человечества)». Опасения, что ИИ может вызвать беспрецедентную катастрофу, широко распространены в этой области.

Ниже мы собрали комментарии известных учёных и инженеров в области ИИ о его катастрофических последствиях. Некоторые из этих учёных приводят свою «p(doom)» – вероятность, что ИИ вызовет вымирание человечества или столь же катастрофические последствия9.

Джеффри Хинтон (2024, лауреат Нобелевской премии и премии Тьюринга за то, что запустил революцию глубокого обучения в ИИ), сказал о своих личных оценках10:

Я на самом деле думаю, что риск [экзистенциальной угрозы] составляет более пятидесяти процентов.

Йошуа Бенджио (2023, лауреат премии Тьюринга (вместе с Хинтоном и Яном ЛеКуном) и самый цитируемый из живущих учёных):

Мы не знаем, сколько у нас времени, прежде чем это станет действительно опасным. Я уже несколько недель говорю: «Пожалуйста, приведите мне аргументы, убедите меня, что нам не стоит волноваться, я буду намного счастливее». Пока этого не случилось. […] У меня примерно двадцать процентов вероятности, что всё обернётся катастрофой.

Илья Суцкевер (2023, соавтор изобретения AlexNet, бывший главный научный сотрудник OpenAI и (вместе с Хинтоном и Бенджио) один из трёх наиболее цитируемых учёных в области ИИ):

Огромная мощь суперинтеллекта также может быть очень опасной и может привести к перехвату власти у человечества, или даже его вымиранию. Хотя суперинтеллект сейчас кажется далёким, мы считаем, что он может появиться в это десятилетие. […] Сейчас нас нет решения, как управлять или контролировать потенциальный суперинтеллект, как предотвратить его выход из-под контроля. Наши нынешние методы согласования ИИ, такие как обучение с подкреплением на основе человеческой обратной связи, полагаются на способность людей контролировать ИИ. Но люди не смогут надёжно контролировать ИИ-системы намного умнее нас, поэтому наши нынешние методы согласования не масштабируются для суперинтеллекта. Нам нужны новые научные и технические прорывы.

Ян Лейке (2023, соруководитель научного направления по согласованию в Anthropic и бывший соруководитель команды суперсогласования в OpenAI):

[интервьюер: «Я не тратил много времени на точное определение моей личной p(doom). Думаю, больше десяти процентов и меньше девяноста процентов».] [Лейк:] Наверное, я назвал бы тот же диапазон.

Пол Кристиано (2023, руководитель отдела безопасности Института безопасности ИИ США (на базе NIST) и изобретатель обучения с подкреплением на основе человеческой обратной связи (RLHF):

Вероятность, что большинство людей погибнет в течение 10 лет после создания мощного (достаточно мощного, чтобы сделать человеческий труд устаревшим) ИИ: 20% […]

Вероятность, что будущее человечества каким-то образом необратимо испортится в течение 10 лет после создания мощного ИИ: 46%

Стюарт Рассел (2025, заведующий инженерной кафедрой имени Смита-Заде в Калифорнийском университете в Беркли и соавтор ведущего учебника по ИИ для студентов «Искусственный интеллект: современный подход»):

«Гонка к СИИ» между компаниями и между нациями в некотором роде похожа [на гонку времён холодной войны по созданию всё более мощных ядерных бомб], только хуже. Даже генеральные директора компаний, участвующих в гонке, заявляли, что у победителя есть значительная вероятность вызвать вымирание человечества, потому что мы понятия не имеем, как контролировать системы умнее нас самих. Иными словами, гонка к СИИ – это гонка к краю пропасти.

Виктория Краковна (2023, научный сотрудник Google DeepMind и соучредитель Future of Life Institute):

[интервьюер: «Об этом не очень приятно думать, но какова, по вашему мнению, вероятность того, что Виктория Краковна умрёт от ИИ до 2100 года?»] [Краковна:] Ну, 2100 год очень далеко, особенно учитывая, как быстро развивается технология прямо сейчас. Навскидку я бы сказала процентов двадцать или что-то в этом роде.

Шейн Легг (2011, соучредитель и главный учёный по СИИ в Google DeepMind):

[интервьюер: «Какую вероятность вы приписываете возможности плохих/очень плохих последствий в результате неправильно сделанного ИИ? […] Где «плохие» = вымирание человечества; «очень плохие» = всех людей пытают»]

[Легг:] В течение года после появления чего-то вроде ИИ человеческого уровня […] я не знаю. Может быть, пять процентов, может быть, пятьдесят процентов. Не думаю, что у кого-то есть хорошая оценка. Если под страданиями вы имеете в виду длительные страдания, то считаю это довольно маловероятным. Если бы сверхразумная машина (или любой другой сверхразумный агент) решила избавиться от нас, думаю, она сделала бы это довольно эффективно.

Эмад Мостак (2024, основатель Stability AI, компании, создавшей Stable Diffusion):

Моя p(doom) составляет 50%. Без указания периода времени вероятность, что системы способнее людей, вероятно, в итоге управляющие всей нашей критической инфраструктурой, нас всех уничтожат – как подбрасывание монетки. Особенно учитывая подход, которого мы сейчас придерживаемся.

Дэниел Кокотайло (2023, специалист по регуляции ИИ, информатор из OpenAI и исполнительный директор AI Futures Project):

Думаю, гибель от ИИ вероятна на 70%, и считаю, что те, кто думает, что меньше, скажем, 20%, – очень неразумны.

Дэн Хендрикс (2023, исследователь машинного обучения и директор Center for AI Safety):

Моя p(doom) > 80%, но раньше она была ниже. Два года назад она была \~20%.

Все перечисленные исследователи подписали заявление о рисках ИИ, которым мы открыли книгу:

Снижение риска вымирания из-за ИИ должно быть глобальным приоритетом подобно другим всеобщим рискам, таким как пандемии или ядерная война.

Некоторые другие известные исследователи, подписавшие заявление: архитектор ChatGPT Джон Шульман; бывший директор исследований Google Питер Норвиг; главный научный сотрудник Microsoft Эрик Хорвиц; руководитель исследований AlphaGo Дэвид Сильвер; один из изобретателей AutoML Франк Хуттер; один из изобретателей обучения с подкреплением Эндрю Барто; изобретатель GAN Ян Гудфеллоу; бывший президент Baidu Я-Цинь Чжан; изобретатель криптографии с открытым ключом Мартин Хеллман; руководитель исследований Vision Transformer Алексей Досовицкий. Список продолжается другими подписантами: Дон Сон, Яша Соль-Дикштейн, Дэвид МакАллестер, Крис Ола, Бин Ким, Филип Торр и сотни других.

Когда Лео Силард увидел будущее

В сентябре 1933 года физик Лео Силард переходил дорогу на пересечении Саутгемптон-роу с Рассел-сквер11, и ему пришла в голову идея цепной ядерной реакции – ключевая идея атомных бомб.

В этот момент началось целое приключение. Силард пытался понять, что делать с этой важной идеей. Он пошёл к более уважаемому физику Исидору Раби, а Раби обратился к ещё более уважаемому Энрико Ферми. и спросил у того, считает ли он цепные ядерные реакции реальной вещью, и Ферми прислал ответ:

Чушь!

Раби спросил у Ферми, что означает «Чушь!». Тот ответил, что это отдалённая возможность.

Раби спросил, что Ферми имеет в виду под «отдалённой возможностью». «Десять процентов».

На что Раби ответил: «Десять процентов – это не отдалённая возможность, если это означает, что мы можем так умереть».

И Ферми пересмотрел свою позицию.

Из этой истории можно извлечь несколько разных уроков. Урок, который мы не извлекаем: «Любая отдалённая возможность заслуживает беспокойства, если мы можем от неё умереть». В десяти процентах нет ничего «отдалённого», но о достаточно отдалённой возможности не стоило бы думать.

Урок, который мы извлекаем из этой истории: иногда можно понять, что технология вроде цепной ядерной реакции возможна, и так узнать (раньше всех остальных), что мир ждут кардинальные перемены.

Ещё один урок, который мы извлекаем из этой истории: первые интуитивные прикидки часто плохо помогают в предвидении и осмыслении кардинальных перемен. Даже если ты – известный эксперт в соответствующей области, как Энрико Ферми.

Подумайте: откуда вообще у Ферми взялись эти «отдалённая возможность» и «десять процентов»?

Почему Ферми считал, что нельзя заставить радиоактивность вызывать больше радиоактивности в цепной реакции? Неужели лишь потому, что большинство крупных идей не срабатывают?

Ответ «Чушь!», кажется, говорит что-то более сильное. Он отражает ощущение, что эта конкретная большая идея чрезвычайно неправдоподобна. Но почему? На основе какого физического аргумента?

Это просто казалось безумным? Да, возможность ядерного оружия имела бы радикальные последствия для мира. Но реальность иногда допускает события с крупными последствиями.12

Когда Ферми впервые услышал идею Силарда, он предложил Силарду опубликовать её и рассказать всему миру – включая Германию и её нового канцлера Адольфа Гитлера.

Ферми проиграл этот спор. И хорошо, что так случилось, ведь ядерное оружие в итоге оказалось возможным. Ферми в конце концов присоединился к крошечному заговору Силарда, хотя оставался скептиком почти что до момента, когда уже сам наблюдал за созданием первого ядерного реактора – Чикагской батареи-1.

Иногда технологии переворачивают мир. Если принимать как должное, что радикальные новые технологии – это «чушь», прогресс может застать врасплох. Даже если ты один из умнейших учёных в мире. Большая заслуга Ферми в том, что он сел и поспорил с Силардом. И даже большая заслуга, что он дал убедить себя и изменил поведение до появления технологии. До возможности собственными глазами её увидеть. Когда ещё было не поздно что-то с этим сделать.

За всю историю человечества произошло много ужасного. Но кое-что ужасное не произошло как раз потому, что кто-то сел и поговорил. В некоторых случаях – заставил поговорить, как сделал Силард с Ферми.

Общество может решить, что p(doom) высок из-за беспомощности человечества, тогда как на самом деле он высок из-за бездействия. Разговоры о p(doom) могут превратиться в самосбывающееся пророчество и направят нас к катастрофе, которой можно было избежать.

Ещё у нас сложилось впечатление, что в Кремниевой долине люди обмениваются своими «p(doom)» как бейсбольными карточками, в отрыве от реальности. Если обратить внимание на эту переменную, то даже вероятность всего лишь в 5% убить каждого человека на планете должна быть очевидным поводом для крайней тревоги.

Это куда выше уровня, достаточного, чтобы оправдать немедленное закрытие всей области ИИ. Люди, кажется, удивительно быстро теряют из это из виду, как только у них появляется стрёмная привычка обмениваться значениями p(doom) на вечеринках, будто это забавная научно-фантастическая история, а не утверждение о том, что действительно со всеми нами произойдёт.

Мы тут не говорим, что названные p(doom) близки к реальности. Но их стоит рассматривать как сообщения отраслевых экспертов, что ситуация критическая.

Подобные аргументы, конечно, указывают на ложный вывод. Ферми ошибался насчёт цепных ядерных реакций. С учётом этого, мы бы сказали, что из существования таких аргументов реально извлечь урок:

«Всегда можно придумать как минимум настолько же правдоподобные аргументы против истины».

То, что Земля ещё не взорвалась – не сильное свидетельство в пользу невозможности ядерных реакторов. Инженеры могут специально тщательно расположить атомы, чтобы они распадались. Поэтому такие аргументы не оправдывают столь ошибочных выводов как «Чушь!».

  1. Мы рассказываем часть истории Лео Сциларда в расширенном обсуждении ниже. ↩︎

  2. Bloomberg, июль 2025 года: «Генеральный директор Meta Марк Цукерберг успешно нанял более десяти исследователей из OpenAI, а также ведущих исследователей и инженеров из Anthropic, Google и других стартапов». ↩︎

  3. Cтатья 1903 года «Летающие машины, которые не летают»: «Машина делает лишь то, что должна делать в подчинении естественным законам, действующим на пассивную материю. Следовательно, если требуется, скажем, тысяча лет, чтобы приспособить для лёгкого полёта птицу, которая начала с зачаточными крыльями, или десять тысяч для той, что начала вовсе без крыльев и должна была их прорастить ab initio, можно предположить, что летающая машина, которая действительно полетит, может быть создана объединёнными и непрерывными усилиями математиков и механиков за период от одного миллиона до десяти миллионов лет — при условии, конечно, что мы сможем тем временем устранить такие мелкие недостатки и затруднения, как существующее соотношение между весом и прочностью в неорганических материалах. Без сомнения, эта проблема притягивает интересующихся, но обычному человеку кажется, что усилия можно было бы направить и на более выгодное дело.» ↩︎

  4. Да, ИИ могут даже распознать иронию того, что New York Times сообщает, будто они не могут распознать иронию. (Отдадим должное New York Times, некоторые из их журналистов освещают ИИ с несколько лучшим пониманием.) ↩︎

  5. Если книга окажется столь успешной, что окупит все эти инвестиции, в нашем контракте есть пункт, говорящий, что авторы в итоге получат от MIRI долю прибыли. Но уже после того как MIRI получит за свои усилия хорошую компенсацию. Но MIRI вкладывает в помощь с книгой столько сил, что, если она не превзойдёт наши ожидания кардинально, мы никогда не получим ни копейки. ↩︎

  6. Фраза «ничего никогда не происходит» распространена среди людей, участвующих в рынках предсказаний. Про неё писал, например, блогер Скотт Александер в эссе «Эвристики, которые почти всегда работают»↩︎

  7. См., например, работу «Вечность за шесть часов», которая обсуждает пределы возможной межгалактической колонизации с учётом известных физических законов. ↩︎

  8. А может, создадут для этого инструменты или преемников. Любым удобным способом, со всеми преимуществами более развитой науки. ↩︎

  9. У нас есть опасения касательно практики называть «p(doom)». Назначение единственной вероятности (в противоположность отдельным вероятностям для разных реакций общества) кажется нам пораженчеством. Есть огромная разница между тем, чья p(doom) высока из-за мнения, что мир скорее всего не способен предотвратить катастрофу, и тем, у кого p(doom) высока из-за мнения, что мир может предотвратить катастрофу, но не будет↩︎

  10. Вопреки тому, что Хинтон говорит в видео до этого, уверенность Юдковского в опасности составляет не «99,999» процента. Пять девяток были бы безумной степенью уверенности. ↩︎

  11. Более полные описание и хронология собраны Фондом атомного наследия↩︎

  12. Мы видели людей, которые, услышав эту критику Ферми, его защищали, изобретая, почему весьма правдоподобно, что Ферми много думал, прежде чем сказать «Чушь!». Например, что Ферми знал – каскады индуцированной радиоактивности до сих пор не уничтожили Землю. А можно подумать, что уже должны были, если бы были физически возможны. ↩︎

Перевод: 
Выменец Максим, Арчет
Оцените качество перевода: 
Голосов пока нет

Глава 1: Особая сила человечества

Элиезер Юдковский, Нейт Соарес

Глава 1: Особая сила человечества

Это онлайн-дополнение к Главе 1 книги «Если кто-то его сделает, все умрут». Ниже мы рассмотрим частые вопросы и раскроем темы из книги.

Некоторые темы не рассматриваются ниже, поскольку они уже освещены в Главе 1 книги. Среди них:

  • Что такое «интеллект»?
  • Могут ли машины стать умнее людей?
  • Существует ли практический предел уровня интеллекта?

Часто задаваемые вопросы

Интеллект – осмысленное понятие?

Да. Это слово описывает реальное явление, пусть его и трудно точно определить.

За последние тридцать лет люди получили семьдесят семь Нобелевских премий по химии, а шимпанзе – ни одной. Инопланетянин, впервые услышав об этом, мог бы заподозрить Нобелевский комитет в предвзятости. Но нет, в людях действительно есть нечто, что отличает нас от шимпанзе.

Мысль до банальности проста, но иногда такие вещи важны. Именно наши способности позволили нам высадиться на Луне и вручили судьбу планеты в руки людей, а не шимпанзе. Философы и учёные могут спорить об истинной природе интеллекта, но к какому бы выводу они ни пришли, само явление никуда не денется. Нечто в человеке позволило нам достичь невиданных в природе высот. Это нечто связано с нашим мозгом – с тем, как мы познаём мир и влияем на него.

Если вы не можете дать чему-то точное определение, это не значит, что оно не может вам навредить.

Если вы оказались в лесном пожаре, неважно, понимаете ли вы химию огня. Вы всё равно сгорите.

То же самое и с интеллектом. Если машины начнут превращать поверхность Земли в свою инфраструктуру, выделяя столько тепла, что океаны закипят, будет уже неважно, есть ли у нас точное определение «интеллекта». Мы всё равно погибнем.

Мы имеем в виду именно то, что говорим. В следующих главах мы объясним, почему ожидаем от сверхразумного ИИ таких крайних последствий. В Главе 3 мы покажем, что суперинтеллект будет преследовать свои цели. В Главе 4 – что эти цели не будут совпадать с тем, чего хотел или о чём просил любой человек. В Главе 5 – что для достижения своих устремлений ему будет выгоднее забрать ресурсы, нужные нам для выживания. А в Главе 6 – что он сможет развить собственную инфраструктуру и быстро сделать мир непригодным для жизни.

Чтобы создать интеллект, не нужно иметь его точное определение.
Люди научились добывать огонь до того, как поняли химию горения. Точно так же люди уже близки к созданию разумных машин, несмотря на недостаток понимания – как мы расскажем в Главе 2.

Не думайте об интеллекте как о математическом понятии, требующем точного определения. Лучше считать «интеллект» названием для наблюдаемого, но пока плохо нами понятого природного явления.

Что-то в человеческом мозге позволяет нам совершать поразительное множество вещей. Мы строим ускорители частиц, разрабатываем новые лекарства, изобретаем сельское хозяйство, пишем романы, проводим военные кампании. Нечто в наших умах позволяет нам делать всё это, а вот мыши и шимпанзе не могут ничего из перечисленного. Хоть у нас пока и нет полного научного понимания этого ментального различия, полезно дать ему имя.

Полезно и иметь возможность говорить об интеллекте, превосходящем наш собственный. Уже сегодня ИИ превосходят человека в разных узких областях. Например, современные шахматные программы сверхчеловечны в игре в шахматы. Естественно задаться вопросом, что произойдёт, когда мы создадим ИИ, превосходящие людей в научных открытиях, технологических разработках, социальных манипуляциях или стратегическом планировании. И так же логично спросить, что случится, когда появятся машины, которые будут лучше людей во всём.

Когда и если появится ИИ, способный проводить научные исследования мирового уровня в тысячи раз быстрее лучших учёных, мы сможем заявить, что он «не по-настоящему разумен», возможно, потому, что он приходит к выводам совсем не так, как человек. Это может быть даже правдой, в зависимости от выбранного определения «интеллекта». Но реальное влияние такого ИИ будет огромным, как бы мы его ни называли.

Нам нужна какая-то терминология, чтобы говорить о подобном влиянии и о машинах, радикально превосходящих нас в прогнозировании мира и управлении им. В этой книге мы выбираем простой путь и присваиваем ярлык «интеллект» именно способностям, а не конкретным внутренним процессам, что их порождают.

Имеет ли смысл понятие «человеческий уровень интеллекта»?

Во многих случаях, да.

Люди создали развитую технологическую цивилизацию, а шимпанзе – нет. Похоже, шимпанзе в каком-то смысле нам не ровня, хотя они общаются, используют инструменты и обладают многими впечатляющими навыками. Поэтому полезно говорить о «человеческом уровне», даже если использовать интеллект людей как мерило бывает проблематично.

Представьте, что однажды в глубинах космоса мы встретили инопланетную цивилизацию, примерно на нашем технологическом уровне. Эти существа могут ходить хуже людей, но плавать лучше. Они могут превосходить нас в состязательных играх вроде шахмат или покера, но уступать в абстрактной математике. Или наоборот. Их мышление может быть медленнее, но память – лучше, или наоборот.

Как определить, интеллект этих пришельцев – «человеческого уровня»? (И почему бы не спросить, достигает ли наш интеллект «инопланетного»?)

Говоря об «интеллекте человеческого уровня», мы имеем в виду свойство, благодаря которому люди способны создать и поддерживать технологическую цивилизацию, на что не способны шимпанзе.

С исторической (а точнее, с антропологической) точки зрения, похоже, в какой-то момент после расхождения путей людей и шимпанзе был преодолён некий порог. Дело не в том, что у людей – лучшие учёные, а у шимпанзе – посредственные, чьи статьи не воспроизводятся. Обезьяны не то что плохих научных статей не публикуют – они вообще писать не умеют! Мозг человека и шимпанзе биологически очень схож. Но мы перешли некую черту. За ней мы смогли создать цивилизацию, плавить железо, запускать ракеты в космос, читать и писать.

На первый взгляд, если отбросить все теории, кажется, будто прорвало некую плотину, и за ней хлынул огромный поток интеллекта. По какой-то неведомой причине, «началось».

Конечно, найдутся те, кто остроумно возразит этой идее. Но они будут придираться к словам и определениям, а не заявлять: «Я обнаружил свидетельства, что Homo erectus пытались строить ядерные реакторы два миллиона лет назад, просто у них это очень плохо получалось».

Похоже, достаточно мощный и универсальный интеллект для создания цивилизации появился в мире стремительно, чётко отделив Homo sapiens от остальных животных. Мы не держимся за ярлык «интеллект человеческого уровня», у него много недостатков. Но как это ни назови, полезно иметь понятие для тех, кто уже перешёл тот самый порог, в чём бы он ни заключался.

Разве интеллект не состоит из множества навыков?

Да, но они сильно пересекаются.

Допустим, я лучше моей сестры сочиняю классическую музыку, а она лучше меня пишет романы. Невозможно однозначно сказать, кто из нас «умнее», ведь это просто разные навыки. Так почему же осмысленнее говорить об ИИ «умнее» человека?

Наш ответ: если я лучше в чём-то одном, а сестра – в чём-то другом, однозначно сравнить нас затруднительно. Но если я преуспеваю в одном деле, а сестра – в двух тысячах, то уже как-то глупо настаивать, что мы на равных. Или утверждать, что о нашем положении вообще ничего нельзя сказать.

«Если кто-то его сделает, все умрут» – книга о вероятных практических последствиях будущего прогресса ИИ. Для осмысленного разговора об этих последствиях не нужно уметь сравнивать ChatGPT, людей и плодовых мушек и точно определять «уровень интеллекта» каждой из этих трёх систем. Достаточно видеть, что ИИ осваивают всё более широкий круг навыков и со временем превзойдут людей в тех, что имеют огромное практическое значение.

А интеллект не переоценён?

Только если вы используете слишком узкое определение «интеллекта».

Иногда мы сталкиваемся с такими утверждениями: «Интеллект – не всё, что нужно для успеха! Многие из самых успешных людей – харизматичные политики, руководители компаний или поп-звёзды! Умники в чём-то лучше, но миром правят не они».

Мы не оспариваем это утверждение. Скорее, «интеллектом» (в этой книге) мы называем то, что отличает не умников от качков, а людей от мышей.

В голливудском сценарии «умным» обычно называют персонажа с книжными знаниями. Может, он знаток истории или гениальный изобретатель. Может, он хорошо играет в шахматы или раскрывает преступления.

У голливудского «ботаника» есть свои сильные стороны, но они уравновешиваются стереотипными слабостями. Возможно, ему не хватает эмоционального интеллекта, здравого смысла или житейской хитрости. Может быть, ему недостаёт ловкости рук или харизмы.

Но харизма – не вещество из какой-то железы. Харизма, как и «книжные знания», – результат процессов в мозге. В том числе и неосознанных: поведение, делающее кого-то харизматичным, не всегда находится под его сознательным контролем. В конечном счёте, и харизма, и инженерный талант – часть неврологической разнецы между человеком и мышью. Не так важно, как эти две способности распределены между умниками и поп-звёздами.

«Искусственным интеллектом» мы называем не «искусственные книжные знания», а «искусственное всё-что-отделяет-человеческий-мозг-от-мышиного». Силу, что позволяет людям летать на Луну, оратору – доводить толпу до слёз, а солдату – метко целиться из винтовки. Всё сразу.

«Обобщённый интеллект» – осмысленное понятие?

Да.

Сапсан может пикировать со скоростью 380 километров в час. Кашалот может нырять на мили вглубь океана. Сапсан утонул бы в море, а кит бы плюхнулся обратно, попробуй он взлететь. Но люди как-то сделали себе металлические оболочки и смогли и полететь быстрее сапсана, и нырнуть глубже кита.

В эволюционном окружении наших предков не было ни глубокого океана, ни отбора по умению парить в небе. Мы справились с этими и многими другими задачами не благодаря особым инстинктам, а исключительно за счёт универсальности нашего разума.

Каким-то образом наши предки прошли отбор на умение в самом общем смысле хорошо решать задачи, хоть они и редко сталкивались с инженерной задачей сложнее, чем сделать копьё.

Это умение у людей идеально? Очевидно, нет. Люди, кажется, неспособны научиться играть в шахматы на уровне лучших шахматных ИИ, по крайней мере, с ограниченным временем на партию. Сверхчеловеческий уровень игры в шахматы очевидно возможен, но людям без посторонней помощи не доступен. Наш интеллект не универсален – то есть мы не можем научиться делать всё физически возможное.1 Эта «универсальность» людей не означает способности делать что угодно одним лишь мозгом. Но всё же человеческие способности учиться и решать новые задачи несравненно более общие, чем у узкоспециализированного шахматного ИИ вроде Deep Blue.

Но эта обобщённость – не всё или ничего. У неё есть разные уровни.

Deep Blue был не очень универсален – он не мог управлять ничем, кроме шахматной доски. Он был способен находить выигрышные ходы, но не съездить в магазина за молоком, или тем более открыть законы гравитации и спроектировать лунную ракету. Deep Blue не умел играть даже в другие настольные игры, будь то простые шашки или более сложная игра го.

Для контраста возьмём AlphaGo – ИИ, который наконец одолел го. Лежащие в его основе алгоритмы способны отлично играть и в шахматы. Го не поддалось первому же найденному человечеством шахматному алгоритму. Но вариант первого же алгоритма для го смог побить рекорды в шахматах, а заодно преуспел в видеоиграх на Atari. Пока что новые алгоритмы не умеют ходить в магазин за молоком, но они уже более общие.

Оказывается, одни виды интеллекта гораздо обобщённее других.

Но «обобщённость» точно определить ещё сложнее, чем «интеллект».

Легко сказать, что люди обобщённее плодовых мушек. Но как это работает?

Мы не знаем. Пока не существует зрелой формальной теории «обобщённости». Мы можем лишь рассуждать на пальцах: интеллект «более обобщён», если он способен предсказывать события и управлять ими в более широком диапазоне окружений, несмотря на большее разнообразие и сложных задач. Но у нас нет формализованной количественной меры этих окружений и задач, чтобы определение стало точным.

Звучит неубедительно? Мы тоже не в восторге. Мы очень надеемся, что человечество успеет лучше в этом разобраться, прежде чем пытаться создавать обобщённо разумные машины. Это помогло бы плачевной технической ситуации, которую мы опишем в главах 10 и 11.

Хотя у нас нет формального описания этого явления, наблюдения за окружающим миром всё же позволяют нам вывести кое-что про обобщённость.

Мы знаем, что люди не рождаются с врождёнными знаниями и навыками для постройки небоскрёбов и лунных ракет. Наши далёкие предки никогда не имели с ними дел, так что эти знания не могли закодироваться в наших генах. Всё это – результаты способности обучаться тому, чего мы не понимали от рождения.

Чтобы оценить обобщённость, надо смотреть не на то, сколько что-то знает, а сколько оно учится.

В некотором смысле люди обучаются лучше мышей. Не то чтобы мыши совсем этого не умели – например, они могут научиться проходить лабиринт. Но люди способны усваивать более сложные и странные вещи и эффективнее связывать фрагменты знаний воедино.

Как именно это работает? Что есть у нас, чего нет у мышей?

Представьте себе двух человек, которые после переезда учатся ориентироваться в новом городе.

Алиса запоминает нужные ей маршруты. Чтобы добраться от дома до хозяйственного магазина, она поворачивает налево на третьей улице, налево на втором светофоре, затем проезжает ещё два квартала и поворачивает направо на парковку. Отдельно она запоминает дорогу до продуктового и до офиса.

Бетти же изучает и усваивает карту города.

Алиса может хорошо справляться с повседневными поездками, но если ей придётся ехать в новое место без навигатора, у неё будут проблемы. Бет, напротив, тратит больше времени на планирование маршрутов, но у неё гораздо больше возможностей.

Алиса, возможно, быстрее на заученных маршрутах, но Бетти лучше справится с поездкой в любое другое место. У Бетти будет и преимущество в других задачах: например, в поиске маршрута с минимальными пробками в час пик или даже в проектировании уличной сети для другого города.

Похоже, существуют типы обучения, меньше похожие на запоминание маршрутов и больше – на усвоение карты. Похоже, некоторые ментальные инструменты можно повторно использовать и адаптировать к самым разным сценариям. Похоже, существуют блее глубокие типы мышления.

Мы подробнее поговорим на эту тему в главе 3.

«Интеллект» – это простая численная величина?

Нет. Но есть уровни, которых ИИ ещё не достиг.

Нам доводилось слышать мнение, что идея суперинтеллекта предполагает, будто «интеллект» – это простая, одномерная величина.2 Вольёшь в ИИ больше исследований, получишь больше «интеллекта» на выходе – как будто это не механизм, а жидкость, и её можно просто качать из-под земли.

Мы согласны с основной идеей этой критики. Интеллект – не простая скалярная величина. Не всегда можно создать более умный ИИ, просто завалив задачу вычислительными мощностями (хотя, судя по последнему десятилетию, иногда можно). Более высокий интеллект не всегда напрямую конвертируется в большую силу. Мир сложен; способности могут наталкиваться на ограничения и выходить на плато.

Но, как мы отмечали в главе 1, сложности, пределы и узкие места не означают, что ИИ самым удобным образом упрётся в стену где-то в районе человеческих способностей. В книге мы обсудили, что у биологического мозга есть ограничения, которых у ИИ нет.

У человеческого интеллекта много ограничений. Они не помешали нам слетать на Луну. Интеллект животных – не единая численная величина, но люди всё равно оставляют шимпанзе далеко позади. При всей сложности интеллекта, тут явно есть качественный разрыв.

Также и ограничения и слабые места искусственного суперинтеллекта могут не помешать ему оставить далеко позади уже нас. Если исследователи и инженеры продолжат гонку за созданием всё более способных ИИ, то качественный разрыв может образоваться уже между ИИ и людьми.

Сможет ли ИИ преодолеть критические пороги и «улететь»?

Вероятно.

С некоторых точек зрения, современный прогресс ИИ выглядит постепенным3. Например, по состоянию на лето 2025 года способность ИИ выполнять многоэтапные задачи последние несколько лет4 росла примерно по экспоненте. Можно сказать, что этот рост обнадёживающе гладок5. Значит ли это, что развитие ИИ будет плавным, медленным и предсказуемым?

Не обязательно. То, что какая-то величина растёт медленно, плавно или постепенно, ещё не значит, что результаты обязательно будут безобидными. Процесс ядерного деления непрерывен, но есть огромная разница между случаями, когда на каждый нейтрон высвобождается меньше одного нового (и реакция затухает), и когда высвобождается больше одного (и реакция усиливается).

Но нет никакого принципиального различия между базовыми механизмами этих двух типов ядерных реакций. Стоит добавить немного урана, и «коэффициент размножения нейтронов» плавно переходит от значения чуть меньше единицы к значению чуть больше единицы. Сверхкритические реакции не вызваны тем, что нейтроны ударяют по атомам урана с такой силой, что создают какие-нибудь «супернейтроны». Чуть больше того же вещества – а разница огромна. Это называется «пороговый эффект».

Случай людей и шимпанзе, по-видимому, свидетельствуетм в пользу того, что для интеллекта есть как минимум один пороговый эффект. Анатомически люди не так уж сильно отличаются от других животных. Мозги человека и шимпанзе внутри очень похожи. В обоих есть зрительная кора, миндалевидное тело и гиппокамп. У людей нет какого-то особого «инженерного» модуля, который объяснял бы, почему мы можем летать на Луну, а они – нет.

Нейронные связи немножко отличаются, и наша префронтальная кора более развита, чем у других приматов. Но на уровне общей анатомии главное отличие – наш мозг в три-четыре раза больше. По сути, мы используем увеличенную и немного улучшенную версию того же «железа».

И эти изменения в ходе эволюции не были внезапны. Мозг наших предков постепенно, шаг за шагом, увеличивался и совершенствовался. Этого хватило, чтобы довольно быстро (в масштабах эволюции) получился огромный качественный разрыв.

Если такое произошло с людьми, то, вероятно, может произойти и с ИИ.

Мы не знаем, насколько ИИ далёк от этих порогов.

Если бы мы точно знали, что именно позволило людям преодолеть порог к обобщённому интеллекту, мы бы понимали, как определить близость этого порога. Но, как мы обсудим во второй главе, у нас нет такого глубокого понимания интеллекта. Так что мы действуем вслепую, не зная, где эти пороги и насколько мы к ним близки.

Последние достижения в области ИИ позволили им лучше решать математические задачи и играть в шахматы. Но этого не хватило, чтобы они преодолели последний рубеж. Может, нужна всего лишь нейросеть в три-четыре раза больше – как разница между мозгом шимпанзе и человека6. А может, и нет! Возможно, потребуется совершенно иная архитектура и десятилетие научных прорывов, подобно тому, как современные чат-боты основаны на архитектуре, изобретённой в 2017 году (и доработанной к 2022).

Какие изменения в человеческом мозге дали нам преодолеть критический порог? Может, способность общаться. Или умение понимать абстрактные концепции, открывшее путь к более ценной коммуникации. А может, мы вообще мыслим не в тех категориях, и настоящий ответ нам и в голову не приходит. Или же это было сложное сочетание факторов, и каждый из них должен был развиться достаточно, чтобы в сумме получился интеллект, способный слетать на Луну.

Мы не знаем. И поэтому, глядя на современный ИИ, мы не можем понять, насколько он близок или далёк от этого критического порога.

Зарождение науки и промышленности радикально изменило человеческую цивилизацию. Появление языка, возможно, так же радикально повлияло на наших предков. Но «критическим порогом» для ИИ не обязано стать что-то из этого. Ведь в отличие от людей, ИИ изначально обладал некоторыми знаниями о языке, науке и промышленности.

А может, критическим порогом для человечества стало сочетание многих факторов, и каждый должен был развиться до определённого уровня, чтобы вся система заработала. ИИ может в чём-то отставать от гоминидов (например, в долговременной памяти), и совершить резкий скачок в практических умениях, как только последний винтик встанет на своё место.

Даже если все эти аналогии между ИИ и людьми не подтвердятся, скорее всего, найдутся другие механизмы, что сделают прогресс ИИ неровным и труднопредсказуемым.

Может, ИИ сдерживают проблемы с долговременной памятью и непрерывным обучением, которых у людей никогда не было. И как только эти проблемы будут решены, «щёлкнет», и ИИ словно обретёт «искру» разума.

Или (как обсуждается в книге) рассмотрим момент, когда ИИ сможет создавать более умных ИИ, а те, в свою очередь, – ещё более умных. Это будет петля положительной обратной связи – частая причина пороговых эффектов.

Не исключено, что существует десяток разных факторов, способных стать тем самым «недостающим элементом». И стоит какой-то лаборатории найти этот последний кусочек пазла, её ИИ резко уйдёт вперёд и оторвётся от остальных, подобно тому, как человечество отделилось от прочих животных. Критический момент может нагрянуть внезапно. И времени на подготовку у нас может не оказаться.

«Скорость взлёта», не влияет на конечный результат, но возможность «быстрого взлёта» означает, что действовать надо без промедления.

По большому счёту, пороговые значения не так уж важны для тезиса «Если кто-то его сделает, все умрут». Наши доводы не зависят от того, что какой-то ИИ выяснит, как рекурсивно самоулучшаться, и с невиданной скоростью превратится в суперинтеллект. Такое может произойти. Мы считаем это довольно вероятным. Но для нашего основного вывода – ИИ на пути к тому, чтобы всех нас убить, это не важно.

Наши аргументы зависят только от этого: ИИ будут всё лучше и лучше предсказывать события в мире и управлять им, пока не обгонят нас. Не особо важно, произойдёт это быстро или медленно.

Пороговые эффекты важны тем, что из-за них на угрозу надо отреагировать как можно скорее. Дожидаться ИИ, справляющегося со всеми умственными задачами слегка лучше любого человека – недоступная нам роскошь. Тогда времени может почти не остаться. Это как смотреть на разводящих огонь древних гоминидов, позёвывать и говорить «Разбудите меня, когда они доберутся до половины пути к Луне».

Гоминидам потребовались миллионы лет на полпути до Луны, и два дня, чтобы долететь. Когда речь может идти о пороговых эффектах, нужно быть начеку раньше, чем станет очевидно, к чему всё идёт. Потом может быть уже слишком поздно.

Разве ChatGPT — это ещё не обобщённый интеллект?

Можно и так назвать, если хотите.

ChatGPT и подобные модели обобщённее, чем ИИ, которые были до них. Они могут немного считать, писать стихи и какой-то код. ChatGPT не всегда хорошо с этим справляется (по состоянию на август 2025 года), но может делать очень много всего.

Вполне правдоподобно, что GPT-5 всё ещё уступает ребёнку в способности к обобщённым рассуждениям. Да, она может цитировать больше учебников. Но она, скорее всего, запомнила намного больше поверхностных шаблонов. А ребёнок для решения сопоставимых задач использует более глубокие мыслительные механизмы (иногда с лучшими результатами, а иногда нет).

Если бы нас, авторов, заставили их сравнивать, мы бы сказали, что в каком-то глубинном смысле ChatGPT кажется в целом глупее человека. И не только потому, что (на момент написания этих строк в июле 2025 года) у чат-ботов ограниченная эпизодическая память.

Некоторые тут же возразят: «Что вы имеете в виду? ChatGPT разговаривает, ведёт со мной глубокие эмоциональные беседы, решает сложные математические задачи и пишет код. Многие люди так не умеют. И где тут глупее человека?» Десять лет назад так никто бы не сказал. Это что-то говорит о прогрессе.

Мир сейчас, пожалуй, где-то на полпути между «ИИ очевидно глупее людей» и «Смотря что вы попросите ИИ сделать».

Может, чтобы преодолеть оставшееся расстояние, нужно лишь немного отмасштабировать – как мозг человека в целом похож на мозг шимпанзе, но в три-четыре раза больше. А может, архитектура в основе ChatGPT слишком поверхностна, чтобы поддерживать «искру» обобщения.

Может, есть некий важный компонент обобщённого интеллекта, попросту недоступный для современных алгоритмы ИИ. Где сработает, они компенсируют это огромным количеством практики и запоминания. Тогда не исключено, что для исправления этой слабости хватит одного гениального (и в то же время невероятно глупого) алгоритмического изобретения. И тогда ИИ смогут понимать практически всё, что понимает человек, и так же эффективно учиться на опыте. (Чтение и запоминание всего интернета при этом никуда не денется.) А может, для этого понадобится ещё четыре алгоритмических прорыва. Как уже обсуждалось в Главе 2, никто не знает.

«Обобщённый интеллект» – неоднозначное понятие.

Говоря «обобщённый ИИ», кто-то может иметь в виду, что ИИ обрели ту самую плохо изученную совокупность способностей, позволившую «взлететь» человеческой цивилизации.

Или можно иметь в виду, что ИИ развился как минимум до такой степени, чтобы люди оживлённо спорили, кто всё же умнее – человек или ИИ.

Или можно представлять себе момент, когда дискуссии прекратятся, потому что станет ясно, что ИИ во всех отношениях намного умнее любого человека. Или потому что дискутировать некому – человечество зашло слишком далеко, и ИИ положил конец всем нашим спорам и начинаниям.

Не было точного дня и часа, когда можно было сказать, что ИИ «начал играть в шахматы на уровне человека». Но когда шахматные ИИ смогли разгромить чемпиона мира среди людей, этот момент уже прошёл.

Всё это к тому, что ответ на вопрос «Обладает ли ChatGPT обобщённым интеллектом?» может быть и да, и нет – смотря, что именно вы под этим имеете в виду. (Это многое говорит о прогрессе ИИ за последние несколько лет! Deep Blue был очевидно довольно узкоспециализированным.)

Суперинтеллект – более важная черта

Из-за неоднозначности «интеллекта человеческого уровня», мы, как правило, будем избегать этого термина не в контексте сверчеловеческого ИИ. Так же мы обычно не используем и термин «сильный искусственный интеллект». Если нам понадобится обсудить одну из этих идей, мы изложим её более подробно.

Мы будем использовать «ИИ умнее человека», «сверхчеловеческий ИИ» или «суперинтеллект». А они подразумевают некое сравнение с человеком:

  • «ИИ умнее человека» или «сверхчеловеческим ИИ» (здесь и в книге) мы называем ИИ, обладающий той самой, отделяющей людей от шимпанзе, «искрой обобщения»; ИИ, который очевидно в целом лучше самых умных людей решает проблемы и выясняет истину.

    Сверхчеловеческий ИИ может быть лишь слегка умнее лучших представителей человечества. Лучшие люди всё ещё могут опережать его в некоторых отдельных задачах. Но здесь и в книге мы будем считать, что «ИИ умнее человека» как минимум означает, что при честном сравнении по широкому набору непростых заданий ИИ покажет себя лучше наиболее компетентных людей, что бы это за задания ни были.

  • Под «суперинтеллектом» или «искусственным суперинтеллектом» (ИСИ) мы, в свою очередь, подразумеваем сверхчеловеческий ИИ, значительно превосходящий человеческий интеллект. Мы принимаем, что отдельные люди и существующие группы людей совершенно неспособны конкурировать с суперинтеллектом в любой области, имеющей практическое значение. Мы обосновываем это в Главе 6.

В книге термины «сверхчеловеческий ИИ» и «суперинтеллект» обычно будут использоваться как взаимозаменяемые. Различие становится актуальнее во второй части, где мы описываем сценарий захвата власти ИИ, где он изначально лишь немного умнее человека, но ещё не суперинтеллект. Мы проиллюстрируем, что суперинтеллект, вероятно, избыточен. Не исключено, что ИИ станет им довольно скоро, но чтобы вызвать вымирание человечества даже не нужно быть настолько умным.

Это очень приблизительные определения, но для целей этой книги их хватит.

Эта книга не предлагает сложную теорию интеллекта и какие-то её эзотерические следствия, предвещающие катастрофу. Нет, наши аргументы работают на довольно простом уровне, вроде:

  • В какой-то момент ИИ, вероятно, в полной мере овладеет тем, что позволяет людям (но не шимпанзе) строить ракеты, центрифуги и города.
  • ИИ когда-нибудь превзойдёт людей.
  • Мощные ИИ, вероятно, обретут собственные цели, к которым они будут упорно стремиться, потому что упорное стремление к целям полезно для самых разных задач (и, например, именно поэтому цели появились у людей в ходе эволюции).

Подобные утверждения, верны они или нет, не зависят от особого понимания всех тонкостей работы интеллекта. Мы видим несущийся на нас грузовик и без сложной модели его внутреннего устройства. Такова наша позиция.

Для таких простых доводов неважно, является ли ChatGPT «по-настоящему» интеллектом человеческого уровня или «по-настоящему» обобщённым интеллектом. Она умеет то, что умеет. Следующие ИИ будут уметь больше и лучше. Дальше мы будем обсуждать, куда этот путь ведёт.

Насколько умным может стать суперинтеллект?

Очень.

В Главе 1 был список, объясняющий, почему человеческий мозг далёк от физических пределах. Но к машинам ни один из пунктов не относится.

Законы физики допускают существование гениев, способных думать в десятки тысяч (а то и в миллионы или миллиарды) раз быстрее людей7, не нуждаться во сне или еде, создавать свои копии и обмениваться опытом.

И это ещё без учёта улучшения когнитивных способностей ИИ.

Для решующего перевеса может хватить даже превосходства над людьми лишь по одному-двум параметрам. На протяжении истории одни группы людей неоднократно занимали доминирующее положение над другими при помощи относительно небольших преимуществ в науке, технологиях и стратегическом планировании. Вспомните, например, испанских конкистадоров. И всё это без значительных различий в строении или размере мозга.

Даже небольшое интеллектуальное превосходство может обернуться огромными практическими выгодами и быстро приумножиться. Но вероятные преимущества ИИ выглядят отнюдь не скромными.

Больше аргументов о том, почему такой уровень интеллекта важен и как его можно превратить в реальную власть, см. в Главе 6.

Но разве нет больших препятствий на пути к суперинтеллекту?

Неясно.

В немалой мере, эта область продвигается вслепую. Может статься, серьёзных препятствий уже не осталось, и небольших изменений нынешних методов хватит для суперинтеллекта. Или для ИИ, достаточно умного, чтобы создать чуть более умный ИИ, который создаст ещё более умный ИИ, который создаст суперинтеллект.

Если серьёзные препятствия и существуют, мы не знаем, сколько времени у человечества на них уйдёт (с помощью ИИ или без).

Зато мы точно знаем, что ведущие лаборатории ИИ не скрываясь движутся в этом направлении и добиваются успеха. Когда-то машины не умели рисовать, говорить или программировать, а теперь умеют.

Эта область хорошо справляется с препятствиями.

Десятки лет ИИ с трудом мог отличить на картинке кошку от машины. Поворотный момент наступил в 2012 году, когда исследователи из Университета Торонто Алекс Крижевский, Илья Суцкевер и Джеффри Хинтон создали [AlexNet] – свёрточную нейронную сеть, значительно опередившую всё, что было до неё. Считается, что она дала старт современной революции в сфере ИИ. С тех пор искусственные нейронные сети лежат в основе почти всех ИИ-систем.

Раньше ИИ плохо играли в настольные игры. Даже после того, как в 1997 году шахматный ИИ [Deep Blue] победил гроссмейстера Гарри Каспарова, компьютеры с трудом справлялись с гораздо большим числом возможных ходов в игре го. Так было до 2016 года, когда [AlphaGo] победила чемпиона мира Ли Седоля. Она была обучена на тысячах человеческих партий, и в ней использовалась новая архитектура, сочетавшая глубокие нейронные сети с поиском по дереву. Победив в го, команда DeepMind применила тот же алгоритм в более общем виде, назвав его [AlphaZero], и обнаружила, что он доминирует и в других играх, таких как шахматы и сёги.

Ранние чат-боты были так себе собеседниками8. Затем, в 2020 году, развитие архитектуры «трансформер» привело к появлению GPT-3. Она была достаточно продвинута, чтобы переводить текст, отвечать на вопросы и даже писать новостные статьи, похожие на настоящие. После небольшого дообучения, чтобы она вела себя как чат-бот, она стала самым быстрорастущим потребительским приложением в истории.9

Существуют ли барьеры, отделяющие современные ИИ от «серьёзных» ИИ, способных стать суперинтеллектом или создать его?

Не исключено. Может, нужны новые архитектурные находки. Как находки в основе AlexNet, открывшие всю область современного ИИ. Как находки в основе AlphaZero, позволившие ИИ хорошо играть в разные игры, используя один алгоритм. Или как находки в основе ChatGPT, давшие компьютерам заговорить. (Или нет. Возможно, современные ИИ незаметно пересекут некий порог, и всё.)

Но если препятствия и остались, специалисты в этой области, вероятно, их преодолеют. Они в этом неплохо разбираются, и сейчас над этим работает гораздо больше исследователей, чем в 2012 году.10

По состоянию на июль 2025 года, ИИ с трудом справляются с задачами, требующими долговременной памяти и последовательного планирования, например, с игрой Pokémon.11 Можно поддаться искушению и вместе со скептиками посмеяться над последними неудачами: как могут машины, пасующие перед простыми видеоиграми, быть хоть сколько-нибудь близки к суперинтеллекту?

Точно так же в 2019 году ИИ с большим трудом могли связно говорить. Это не означало, что до успеха было двадцать лет. Лаборатории усердно работают над выявлением препятствий, мешающих системам выполнять определённые задачи. И, вероятно, они близки к созданию новых архитектур, которые лучше справятся с долговременной памятью и планированием. Никто не знает, на что будут способны такие ИИ.

Если после этого ИИ всё ещё не смогут автоматизировать научные и технологические изыскания (включая разработку ещё более умных ИИ), исследователи просто переключатся на следующее препятствие. Они будут и пробиваться всё дальше, если только человечество не вмешается и не запретит подобные разработки, – эту тему мы рассмотрим в следующих главах.

А разве вообще можно предсказать поведение суперинтеллекта?

Не во всём, но в чём-то да.

Stockfish 17 лучше нас управляет ситуацией на шахматной доске. Если бы мы играли с ним в шахматы, то не смогли бы предсказать его ходы – для этого надо играть как минимум не хуже него. Но угадать победителя легко12. Сложно сказать, как Stockfish будет ходить, но просто – что он выиграет.

То же самое с ИИ, предсказывающими события и направляющими реальный мир. Чем они умнее, тем сложнее в точности предсказать их действия, но тем легче предсказать, что они достигнут цели, к которой стремились.

А машины не будут по сути своей неспособны на творчество или обладать ещё какими-нибудь фатальными слабостями?

Нет.

В основном мы отложим вопрос о творческих способностях машин до главы 3. Однако здесь скажем вот что: машины не обязаны обладать каким-то фатальным недостатком, который уравнял бы их с людьми и дал бы неукротимому человеческому духу шанс на победу.

Если бы у дронтов была своя киноиндустрия, в их сценариях о вторжении людей на остров Маврикий, оружие и сталь людей могли бы компенсироваться недостатками. Возможно, вызванная интеллектом экзистенциальная тоска заставила бы людей в последний момент в отчаянии замереть – ровно на столько, чтобы героические дронты смогли контратаковать и заклевать всех до смерти.

Или, наверное, дронтам понравилась бы такая история: интеллект в принципе не может давать военное преимущество над крепкими клювами. У большого мозга людей должен быть некий фатальный изъян, что в итоге позволит гордым дронтам победить.

На самом деле кажущиеся преимущества людей реальны. Слабости человеческого мозга не делают его в итоге хуже птичьего в военном конфликте. Противостояние людей и дронтов – неравная борьба, вот и всё.

Даже в войнах между людьми пулемёты – достаточное преимущество, чтобы армия с ними обычно побеждала противника без них. Из этого правила есть редкие исключения. Их любят пересказывать, потому что исключения – более занятная история, чем норма. Но в реальной жизни исключения случаются куда реже, чем в рассказах.

Мы прогнозируем то же самое о продвинутых ИИ с огромной памятью и разумом, способных копировать себя тысячами и думать в десять тысяч раз быстрее человека; о разумах, способных рассуждать более здраво, быстрее и точнее делать выводы из меньшего числа горьких уроков и самосовершенствоваться.

Это не вопрос с подвохом, и никакого потрясающего сюжетного поворота не будет, как бы нам ни хотелось.

Разве в людях нет чего-то особенного, что какие-то там машины никогда не смогут имитировать?

Это кажется маловероятным, да и не особо важным.

Человеческий мозг и тело состоят из частей, которые мы можем изучать и изучить. В мозге есть многое, чего мы не понимаем, но это не значит, что оно работает на магии и люди никогда не смогут создать ничего подобного. Только что человеческий мозг – невероятно сложная машина. В нём сотни триллионов синапсов, и нам ещё предстоит долго разбираться во всех важных высокоуровневых принципах его работы.

Интеллект тоже состоит из частей – алгоритмов и отдельных вычислений. Наш мозг выполняет их, хоть у нас и нет научного понимания его работы.

Даже если бы какой-то аспект биологического мышления было очень трудно реализовать в машинах, это бы не означало, что ИИ никогда не превзойдёт человечество. ИИ мог бы просто выполнять ту же работу иначе. Deep Blue определял выигрышные шахматные ходы совсем не так, как Гарри Каспаров.13 Важно не то, обладают ли машины всеми уникальными чертами людей, а то, смогут ли они предсказывать и направлять события.

В следующих главах мы обсудим это подробнее. В Главе 2 мы расскажем, как современные ИИ скорее выращены, чем построены, и как процесс выращивания делает их очень способными. Затем в Главе 3 мы рассмотрим, как попытки сделать ИИ всё более компетентными ведут к тому, что они всё больше стремятся к достижению сложных целей. А в Главе 4 мы обсудим, что эти цели вряд ли будут теми, которые задумывали разработчики или о которых просили пользователи. Всего этого достаточно, чтобы ИИ привели мир к гибели, и не важно, есть ли у них некая жизненная искра, сознание или что-то ещё, по-вашему, делающее людей особенными.

См. также в будущих онлайн-ресурсах:
- Глава 2: «[Разве ИИ – это не „просто математика“?]» и «[Разве ИИ не будут холодными, механистичными, излишне логичными или лишёнными какой-то важной искры?]»
- Глава 3: «[Антропоморфизм и механоморфизм]»
- Глава 5: «[Эффективность, сознание и благополучие ИИ]»

Вы хотите сказать, что машины обретут сознание?

Необязательно, и нам это кажется отдельной темой.

В «Если кто-то его сделает, все умрут» мы вообще не касаемя машинного сознания. Она посвящена машинному интеллекту. Чтобы говорить о сознании, сначала надо уточнить, что конкретно мы имеем в виду.

Когда кто-то спрашивает: «Есть ли у моей собаки сознание?», он может иметь в виду несколько разных вещей, например:

  • Мухтар и правда что-то понимает или только следует сложным инстинктам? Он думает или так лишь кажется?
  • Осознаёт ли он себя? Что он существует? Он может размышлять о своём мыслительном процессе и строить сложные ментальные модели самого себя?
  • Есть ли у него подлинные субъективные переживания? Есть ли у него своя внутренняя точка зрения, или он лишь бездушный биоробот? Быть моей собакой – это как-то? Когда я надолго ухожу, он воет, будто скучает по мне. Это потому, что он действительно скучает (или что-то подобное)? Или он скорее как простая компьютерная программа, лишённая сознания, и просто демонстрирует такое поведение, ничего не чувствуя?

Про ИИ можно задать аналогичные вопросы.

  • Есть ли у ChatGPT «настоящее понимание»? Что ж, она способна очень хорошо выполнять одни сложные когнитивные задачи и не очень хорошо – другие. Она отлично справляется с кучей новых заданий, которые не встречались ей при обучени и требуют по-новому, творчески синтезировать и изменять информацию. В какой-то момент вопрос, «действительно ли она понимает», становится скорее спором об определениях. Практически важный вопрос, более значимый для нашего выживания, – какими реальными возможностями ИИ обладают сейчас и какие, скорее всего, проявят в ближайшие месяцы и годы.

  • Осознаёт ли ChatGPT себя? Опять же, ChatGPT, по-видимому, хороша в одних аспектах моделирования себя и плоха в других. Есть серьёзный фактор, затрудняющий дело: вся парадигма в основе ChatGPT была нацелена на то, чтобы системы звучали так, будто осознают себя, отвечали как люди. Можно дискутировать о том, перешла ли ChatGPT некие важные границы самосознаниия, и о том, какие рубежи ещё впереди. Но рано или поздно стоит ожидать появления ИИ, обладающих чрезвычайно мощными практическими способностями к пониманию и рассуждению о себе – умением отлаживать самих себя, проектировать новые, улучшенные версии себя, строить сложные планы относительно своего положения в мире и так далее.

  • Есть ли у ChatGPT подлинные субъективные переживания?

Последний из этих вопросов – самый философски сложный. Ещё он приводит к рассуждениям, являются ли ИИ, подобные ChatGPT, объектами, заслуживающими морального отношения. Мы обсудим это позже, в расширенных рассуждениях к главе 5.

Когда мы используем слово «сознающий», мы имеем в виду как раз «обладающий субъективным опытом», а не самомоделирование и глубокое практическое понимание.14

Наше лучшее предположение: сегодняшние ИИ, вероятно, не обладают сознанием (хотя с каждым годом мы всё менее в этом уверены), а для суперинтеллекта субъективный опыт не обязателен.

Но это лишь догадки, хотя и основанные на немалых размышлениях и теоретизировании. Мы совсем не считаем глупыми опасения, что некоторые нынешние или будущие системы ИИ могут обладать сознанием. Или переживания, что мы можем плохо обращаться с современными ИИ, особенно когда они, например, угрожают покончить с собой15, потому что не получилось исправить баг.

Любая сущность, которую мы сочли бы суперинтеллектом, обязательно должна очень хорошо моделировать себя: обдумывать собственные вычисления, улучшать свои ментальные эвристики, понимать и предсказывать влияние своего поведения на окружающую среду и так далее. Мы склоняемся к тому, что самосознание человеческого типа – лишь один из способов, которым разум может эффективно себя моделировать. Это не обязательное условие для рефлексивного мышления.

Возможно, сознание – важный элемент того, что позволяет людям так хорошо манипулируют миром. Но это не значит, что без него машины будут неполноценными и не смогут предсказывать мир и направлять события. Подводные лодки плавают не так, как люди, а совершенно иным способом. Мы ожидаем, что ИИ сможет справляться с теми же задачами, что и человек, но не обязательно через тот же канал субъективного опыта.

(См. также аналогичный случай любопытства в дополнении к главе 4.)

Или, кровь очень важна для работы человеческой руки, но это не значит, что руке робота она тоже необходима. Отсутствие крови не делает руку робота неполноценной, как сделало бы человеческую. Они просто работают по-разному. Наша лучшая догадка: машинные суперинтеллекты тоже будут работать по-другому, бессознательно. Но для наших аргументов это и не важно.

В «Если кто-то его сделает, все умрут» в центре внимания интеллект, определённый как способность мыслящего существа предсказывать мир и направлять события. И неважно, работает ли его мозг как человеческий. Если ИИ изобретает новые технологии и инфраструктуру и распространяет их по планете так, что как побочный эффект мы все погибнем, то вопрос «Но есть ли у него сознание?» кажется несколько неуместным.

Мы подробнее разберём, почему мы считаем, что предсказание и направление, скорее всего, не требуют сознания (и что это значит для наших размышлений о благополучии и правах ИИ), после Главы 5, когда заложим необходимую основу. См. раздел «Эффективность, сознание и благополучие ИИ».

Расширенное обсуждение

Подробнее об интеллекте как предсказании и направлении

Если вы спросите мудрого физика, что такое двигатель, он может сначала указать на ракетный двигатель, дизель и хомячье колесо и сказать: «Это всё – двигатели». А потом на камень и добавит: «А это – нет».

Это было бы описание через примеры двигателей в мире, а не через словесное определение. Если вы попросите его всё же дать словесное определение, он может сказать, что двигатель – это всё, что преобразует немеханическую энергию в механическую – в движение.

Это утверждение описывает скорее функцию двигателя, а не его устройство. Совершенно разные вещи могут быть двигателями. Мало чего полезного можно сказать про ракету, электромотор и мышцы хомяка сразу. Только что они преобразуют другие виды энергии в механическую.

Мы бы сказали, что с интеллектом похожая ситуация. Есть много разных биологических и механических «устройств», способных его порождать. «Интеллект» – всё, что выполняет работу интеллекта.

Мы разделяем эту работу на «предсказание» и «направление». Есть формальные результаты, подкрепляющие такую точку зрения.

Сначала мы обсудим, в каком смысле уровень предсказания довольно объективен. Затем мы сравним это с направлением. У него есть дополнительная степень свободы.

Одинаковые предсказания

Проверить, насколько кто-то хорош в предсказаниях, – задача относительно нехитрая. Как минимум, в случаях, когда предсказание имеет форму «увижу X», а потом X действительно видят.

Можно оценивать и успешность неуверенных прогнозов. Допустим, вы думаете: «Небо почти точно сейчас голубое, но, всё же, может, и серое. И наверняка не чёрное». Если вы выглянете в окно, а небо и правда будет голубым, вы должны получить больше очков, чем если бы оно было серым, и гораздо больше, чем если чёрным.

Если бы вы были исследователем ИИ, пытающимся представить эти ожидания в виде чисел на компьютере, вы могли бы заставить подопытный ИИ подбирать числа, чтобы показать, насколько сильно или слабо он ожидает разных исходов. Затем вы бы подкрепляли поведение пропорционально тому, насколько высокое число ИИ присвоил правильному ответу.

Конечно, всё бы быстро пошло не так, как только ИИ научился бы присваивать каждому возможному исходу значение в три октотригинтиллиона.

(По крайней мере, именно такая проблема и возникла бы, если бы вы обучали ИИ с помощью современных методов. Введение в них см. в Главе 2.)

— Ой, – могли бы вы сказать. – Числа, присвоенные взаимоисключающим и исчерпывающим вариантам, в сумме должны давать не больше ста процентов.

Когда вы попробуете снова, вы обнаружите, что ИИ всегда присваивает 100 процентов одному-единственному варианту, который считает самым вероятным.

Почему? Допустим, ИИ считает, что наиболее вероятный исход имеет шанс примерно восемь из десяти. Тогда стратегия присвоения ста процентов самому вероятному ответу получает стопроцентное же подкрепление в восьми случаях из десяти, что в среднем даёт силу подкрепления 0,8.

Для сравнения, стратегия присвоения восьмидесяти процентов наиболее вероятному ответу и двадцати процентов – противоположному получает восьмидесятипроцентное подкрепление в 8 случаях из десяти и двадцатипроцентное — в двух. В среднем это даёт силу подкрепления всего 0,64. В итоге, стратегия «присваивать сто процентов одному ответу» получает большее подкрепление и побеждает.

Если вы хотите, чтобы подкрепление мотивировало ИИ присваивать восемьдесят процентов вариантам, которые случаются восемь раз из десяти, следует использовать логарифм вероятности, присвоенной истинному варианту. Это не единственный способ. Но только у взятия логарифма есть дополнительное полезное свойство. Благодаря ему, когда ИИ предсказывает несколько исходов (например, цвет неба и влажность земли), неважно, считать это одним большим вопросом (о том, голубое ли небо и сухо ли на улице, голубое и влажно, серое и сухо или серое и влажно) или двумя (о голубом против серого и о сухом против влажного).

Сегодня исследователи действительно обучают ИИ делать предсказания, заставляя их выдавать числа, которые мы интерпретируем как вероятности, и подкрепляя их пропорционально логарифму числа, присвоенному истине. Но это не просто эмпирический результат обучения машин. Это теоретический вывод. Он был известен задолго до обучения ChatGPT. Зная эту теорию, вы могли бы заранее правильно предположить, что хороший способ научить ИИ предсказывать – оценивать прогнозы с помощью логарифмов.

Для понимания аргументов в «Если кто-то его сделает, все умрут», знать эту математику не обязательно. Но именно такие принципы лежат в основе наших разговоров о «предсказании» и «направлении».

Есть [математика] о предсказаниях. Она гласит: если ваши ожидания о том, что произойдёт, полезны, их можно выразить в виде вероятностей, даже если вы сознательно о численных вероятностях не думали. И есть лишь один [метод оценки], который мотивирует вас сообщать свои истинные вероятности и для которого неважно, на сколько частей вы разобьёте предсказание.

Суть в том, что предсказания можно объективно оценивать. Когда некий разум или машина пытается угадать цвет неба за окном, следующее слово на веб-странице, или ближайший дорожный знак на пути в аэропорт, есть (грубо говоря) только один действительно хороший способ оценить, насколько он справляется.

Это не значит, что чтобы быть умным, надо бормотать числа о цвете неба, прежде чем выглянуть в окно. Когда вы ожидаете увидеть голубое или серое небо, а не чёрное, что-то в вашем мозгу действует схоже с калькулятором вероятностей, осознаёте вы это или нет.

Любой процесс, похожий на предсказание, будь то явное утверждение, безмолвное ожидание или что-то совсем иное, подчиняется объективному правилу оценки.

Так что, когда два разума работают с одинаковой исходной информацией, их предсказания будут всё больше сближаться по мере того, как они всё лучше и лучше справляются с прогнозированием. Есть лишь один способ оценивать прогнозы (сверяя их с реальностью), и лишь одна реальность. Если разум лучше предсказывает, он почти по определению будет больше концентрировать свои ожидания на истине.

Всё это разительно отличается от ситуации с направлением. К нему и перейдём.

Разные цели

Предсказания двух разумов, которые оба очень в них хороши, будут, скорее всего, похожи.

А вот с направлением другое дело. Два разума, которые очень хороши в направлении событий, зачастую не будут направлять их к одной и той же цели.

Чтобы думать об интеллекте более конкретно, полезно иметь в виду эту разницу. А ещё она соответствует разделению на простые и сложные инженерные задачи в области ИИ.

Когда вы обучаете ИИ предсказывать, все лучшие методы в некотором смысле приведут к одному и тому же. (При условии, что система вообще становится компетентной. Способов провалиться гораздо больше.)

Предположим, вы обучаете ИИ предсказывать следующий кадр с веб-камеры, снимающей небо за окном. Почти любая модель, когда начнёт достаточно хорошо с этим справляться (то есть заранее присваивать гораздо более высокую вероятность тому, что действительно потом увидит), будет предсказывать ясное, серое от туч или тёмное небо, но не небо в клеточку.

Какую конкретно технологию вы используете, в конечном счёте, не столь важно. Любой рабочий и получающий высокие оценки метод в итоге присвоит синему цвету неба примерно одну и ту же вероятность.

А у задачи «направления», напротив, есть огромный и сложный свободный параметр: к какой цели система стремится?

Генералы противоборствующих сторон могут быть одинаково искусны, но это не значит, что они пытаются достичь одного и того же. Два полководца могут обладать схожими навыками, но использовать их для совершенно разных целей.16

Предсказательная часть ИИ-системы может работать очень хорошо только если она заранее присваивает высокие вероятности итоговым наблюдениям. Когда система начинает лучше прогнозировать, она, вероятно, совершенствует как раз те предсказания, что вам нужны. В рамках схемы обучения возможен только один «вид» прогнозов. Преуспевающая система, скорее всего, именно его и делает.

Чтобы исправить ошибочные предсказания системы, может хватить просто добавления вычислительной мощности и обучающих данных. Можно сделать систему лучше (в предсказаниях важных для вас вещей), просто сделав её мощнее.

С направлением это не так.

Есть и формальные результаты, подтверждающие это различие. Учёные много изучали «направление» – планирование, принятие решений, обход препятствий, проектирование и так далее. Один важный математический результат из этой области – [теорема фон Неймана — Моргенштерна о полезности].

Перескажем эту теорему простыми словами. Пусть сущность предпочитает одни результаты другим. Либо она неэффективна,17 либо она хорошо описывается набором вероятностных убеждений и «функцией полезности». Функция полезности определяет, насколько одни исходы лучше или хуже других. Убеждения можно оценить по их точности, как было описано выше. А вот функция полезности – полностью свободный параметр.

Разумеется, конечный разум не может быть совершенно эффективным. Но эта теорема и другие подобные результаты дают важный урок. Чтобы очень эффективно решать любую нетривиальную задачу, разуму в некотором смысле (пусть неявно и неосознанно) надо выполнять два отдельных вида работы: по составлению корректных убеждений (предсказание) и по достижению целей (направление).

Возьмём басню Эзопа о лисе и винограде. Лисица видит аппетитные гроздья винограда, висящие на лозе. Она прыгает за ними, но не получается. Тогда она оставляет эту затею со словами: «Да он, наверное, всё равно кислый».

Если поверить лисице на слово, её (не)способность добраться до винограда «протекает» в её предсказание о его вкусе. Если она и дальше будет придерживаться этого нового мнения и из гордости откажется есть «кислый» виноград, получив шанс это сделать, её поведение неэффективно.18 Она могла бы справиться лучше, чётче разделяя свои предсказания (сладости винограда) и свою способность к направлению (достать виноград).

Грубо говоря, работу эффективно действующих разумов можно разделить на «что они предсказывают» и «к чему они стремятся» (плюс некоторая неэффективность). Как мы видели, первое можно оценить довольно объективно, а вот второе может сильно различаться даже у одинаково компетентных умов.

Не только предсказатели

К сожалению, большая ограниченность предсказание по сравнению с направлением не означает, что мы можем создать надёжный суперинтеллект, который будет только предсказывать, но не направлять события.

Математика говорит, что хорошо работающий разум можно смоделировать как «вероятностные предсказания плюс направление». Но это не значит, что у реальных ИИ есть чётко разделённые модули «предсказания» и «направления».

Можно посмотреть на это так: сверхчеловечески точное «предсказание» – не просто выдача правильных вероятностей по-волшебству. Для хорошего предсказания надо поработать. Оно требует планирования и продумывания способов достижения долгосрочных целей – требует направления.

Иногда, чтобы предсказать физический мир, нужно составлять физические теории и открывать управляющие ими уравнения. А для этого часто надо разрабатывать эксперименты, проводить их и наблюдать за результатами.

А это требует планирования. Это требует направления. Если на полпути к созданию экспериментальной установки вы поймёте, что нужны магниты помощнее, придётся проявить инициативу и изменить курс. Хорошие предсказания не даются даром.

Даже выбор, какие мысли думать и в каком порядке – пример направления (пусть люди часто и делают это неосознанно). Тут нужна какая-то стратегия и выбор под задачу правильных инструментов. Чтобы ясно мыслить и, следовательно, лучше предсказывать, нужно организовывать свои мысли и действия для той или иной долгосрочной цели. (Мы вернёмся к ключевой роли направления в главе 3, «Научиться хотеть».)

Сформулируем ещё раз математическое различие между предсказанием и направлением. Есть в общем-то один «правильный» набор предсказаний. Разум можно подтолкнуть к нему с помощью верной системы оценок. Но нет (объективно, независимо от «для кого») одного «правильного» пункта назначения.19 Когда ИИ обучают быть более способным, это уточняет его предсказания. Но это не «направляет» его автоматически на тот результат, который люди считают хорошим. Потому что точность объективна, а «хорошесть» – это и есть то, куда кто-то направляется.

Все идеальные предсказания одинаковы. Идеальные «направления» – нет.

Теоретически, должны существовать способы убедиться, что ИИ направляет события туда, куда нам надо. На практике это сложно. Эта задача сильно отличается от «сделать ИИ в целом умнее и способнее», и нет (простой, не-«обыгрываемой») метрики или правила оценки, чтобы определить, в какой степени ИИ пытается направлять события именно к той цели, которую мы от него хотим.

Мы подробнее обсудим эти темы в Главах 4 и 5.

Множество форм интеллекта

Нечто может хорошо предсказывать и направлять, не имея при этом почти ничего общего с человеческим мозгом.

Фондовый рынок выполняет работу по узкоспециализированному предсказанию цен на акции компаний. Цена акций Microsoft сегодня – довольно неплохой прогноз того, какой она будет завтра.20

Допустим, завтра руководители компании предоставят отчёт о доходах и расскажут об успехах за последний квартал. Сегодня цена акций высокая? Это подсказывает, что завтрашние отчёты будут радужными. Низкая? Значит, отчёты будут мрачными.

Рынки в этом отношении довольно точны, потому что люди могут разбогатеть, исправляя их ошибки. Так что рынки неплохо справляются с работой по предсказанию в этой узкой области. Они предсказывают движение краткосрочных цен на корпоративные акции (и, косвенно, такие вещи, как урожайность и продажи автомобилей) для очень широкого спектра товаров и услуг. И делают это гораздо лучше, чем любой отдельный человек.

Некоторые люди могут предсказывать движение отдельных цен лучше, чем весь остальной фондовый рынок. Это делает их очень богатыми. Уоррен Баффетт заработал двенадцать миллиардов долларов за шесть лет, [вложившись в Bank of America], когда тот шатался после финансового кризиса 2011 года. Но даже тогда он предсказывал поведение лишь одной компании из огромного множества. Если бы кто-то обычно знал лучше рынка, то смог бы ошеломительно быстро заработать безумные деньги. Ни у кого не получается. Значит, по сути никто не прогнозирует большинство цен на акции лучше рынка.21

Что касается направления, Stockfish узкоспециализированно делает это в шахматах. В партии против человека он очень искусно делает ходы, направляющие мир шахматной доски в позиции, где фигуры Stockfish поставили мат королю противника. Какие бы хитрые ходы ни придумывал человек, как бы он ни боролся (если только не выключит Stockfish), тот обеспечит такой финал. Он управляет событиями на шахматной доске лучше любого отдельного человека.

Надеемся, теперь ясно, почему мы не определяем интеллект как-то вроде «Ну, должен быть какой-то модуль обучения, и какой-то модуль размышления, и какие-то детали, создающие искру хотения». Ведь, если смотреть на внутреннее устройство, фондовый рынок, Stockfish и человеческий мозг отличаются не меньше, чем ракетный двигатель, электромотор и хомячье колесо.

Что-то обладает интеллектом, если оно выполняет работу интеллекта.

По крайней мере, при нашем определении «интеллекта» в этой книге. И учёные в области информатики и исследователи ИИ обычно думают о нём так же. Если вы хотите в других контекстах определять интеллект как-то по другому, мы не против. Это лишь слова.

Но чтобы правильно понять, что мы утверждаем в «Если кто-то его сделает, все умрут», когда упоминаем «искусственный интеллект», не думайте об «искусственной эрудиции», «искусственном сознании» или «искусственной человекоподобности». Думайте об «искусственном предсказании и направлении».

Поверхностность современных ИИ

В этой главе мы писали, что современные (на середину-конец 2025 года) ИИ явно «поверхностны», если знать, куда смотреть. Если вы сами ещё не замечали, вот несколько примеров:

  • Claude 3.7 Sonnet от Anthropic [зацикливалась], пытаясь пройти нехитрую видеоигру про покемонов.
  • В ноябре 2022 года одной из лучших в мире программ для игры в го был KataGo. По крайней мере, пока исследователи не нашли способ [побеждать] его с помощью предсказуемой серии ходов. Она вызывала своего рода «слепое пятно», и KataGo делал грубую ошибку, которую не допустил бы даже любитель. За два года инженеры [так и не смогли сделать его устойчивым] к подобным атакам.
  • Современные «мультимодальные» LLM (те, что могут работать не только с текстом, но и с изображениями и другими данными) с трудом считывают время и дату с часов со стрелками и календарях. Большинство четвероклассников с этим справляется.
  • Частый пример: современные большие языковые модели неправильно отвечают на простые вариации классической загадки про доктора, где подвох убран и ответ совершенно прямолинеен. Кажется, они не в силах удержаться и не выдать ответ-обманку, на который подлавливает обычная версия загадки.

(В онлайн-материалах к Главе 4 с технической точки зрения более подробно рассматривается, чем такая поверхностность может быть вызвана.)

Это не значит, что ИИ глупы во всём. Современные ИИ могут на уровне золотых медалистов решать задачи с Международной математической олимпиады – сложного и уважаемого соревнования. Они невероятно много чего умеют, часто не хуже или даже лучше людей.

Их набор навыков странный. Человеческие сильные и слабые стороны – плохой ориентир для понимания того, что ИИ покажется легче или сложнее. ИИ по сути своей радикально отличаются от людей в очень многом.

Мы [не] говорим, что ChatGPT убьёт вас завтра. В современных ИИ всё ещё есть некоторая поверхностность. Скорее, мы наблюдаем, что область развивается, и неясно, [долго ли она ещё будет].

Осознание силы интеллекта

Голливудский «интеллект»

Концепция «интеллекта» в нашем понимании плохо представлена в массовой культуре, как под этим, так и под любым другим названием.

Голливудские фильмы печально известны среди учёных тем, что неверно показывают почти каждый аспект науки, которого касаются. Специалистов это тревожит, ведь многие люди действительно черпают представления о науке из кино.

То же самое происходит и с изображением интеллекта в Голливуде.

Мы видели много неудачных попыток серьёзно обсудить настоящий суперинтеллект. Часто эти разговоры заходят в тупик, когда люди не понимают, что «суперинтеллект» на самом деле значит.

Представьте, что играете в шахматы против бывшего чемпиона мира Магнуса Карлсена (которого ещё более сильные шахматные ИИ считают лучшим игроком в истории). Главный вывод из «Карлсен умнее (в области шахмат)», – он вас победит.

Если вы сами не очень хороши, то, вероятно, вы проиграете даже если Карлсен даст вам фору в ладью. Утверждение «Карлсен умнее меня в шахматах» можно понимать так: он способен выиграть у вас партию даже с меньшими ресурсами. Его когнитивное преимущество достаточно сильно, чтобы компенсировать материальный недостаток. Чем больше разница в ваших умственных способностях (в шахматах), тем больше фигур Карлсен должен вам уступить, чтобы играть с вами примерно на равных.

  • Есть своего рода уважение, которое вы оказываете Магнусу Карлсену в области шахмат. Оно проявлялось бы в том, как вы интерпретируете его ходы. Представьте, что Карлсен делает ход, и он кажется вам плохим. Вы не потираете руки в предвкушении его ошибки. Вместо этого вы смотрите на доску, чтобы понять, что вы упустили.

Это редкий вид уважения одного человека к другому! Чтобы заслужить его от незнакомца, обычно нужно быть исключительно хорошим сертифицированным профессионалом. И то уважение будет касаться только этой одной профессии. Ни у кого на Земле нет всемирной репутации человека, никогда не совершающего глупостей в целом.

И это концепция интеллекта, которую Голливуд вообще не понимает.

Для Голливуда было бы характерно показать, как десятилетний ребёнок ставит мат Магнусу Карлсену, «[делая нелогичные ходы]». Ни один профессиональный шахматист не стал бы их рассматривать, потому что они слишком безумны. И так ребёнок застаёт Карлсена «врасплох».

Когда Голливуд изображает «суперумного» персонажа, он обычно опирается на стереотипы о «ботаниках против качков» и показывает, что более умный герой, скажем, неумел в романтических отношениях. Иногда ему просто дают британский акцент и изысканный словарный запас, и сойдёт.

Голливуд обычно не пытается изобразить «суперумного» персонажа делающим точные прогнозы или выбирающим действительно работающие стратегии. Для таких героев нет стандартного голливудского тропа. К тому же, это исключило бы «сюжеты, построенные на глупости» (требующие чтобы персонаж сделал нечто глупое для самого себя, но удобное для сценариста), а их легче писать.

В английском языке нет устоявшегося термина только для настоящей широкой ментальной компетентности, никак не связанного со стереотипами о «ботаниках и качках». Поэтому, если попросить Голливуд прописать «интеллектуального» персонажа, там не будут пытаться изобразить его «выполняющим сложную когнитивную работу и, как правило, успешно достигающим своих целей». Скорее, это будет просто кто-то запомнивший много научных фактов.

Действительно пугающий умный злодей, если бы все в аудитории видели очевидный недостаток в плане, увидел бы его тоже.

В фильме «Мстители: Эра Альтрона» якобы гениальный ИИ по имени Альтрон получает от своего якобы гениального создателя Тони Старка22 директиву – содействовать «миру во всём мире». Альтрон, конечно, сразу понимает, что отсутствие войн надёжнее всего обеспечивается отсутствием людей. Поэтому ИИ стремится уничтожить всю жизнь на Земле…

…для чего он прикрепляет к городу ракеты и поднимает его в космос, чтобы сбросить подобно метеориту… и охраняет его летающими человекоподобными роботами, которых можно победить, хорошенько стукнув.

Предлагаем задаться вопросом: «Если значительная часть аудитории видит, что для достижения целей злодея были планы получше, увидел бы это и опасно умный ИИ?»

Это – часть уважения к по-настоящему умному гипотетическому существу. Мы исходим из того, что оно умнее нас. Как минимум, оно поймёт всё, что можем понять мы сами.

В былые дни нам пришлось бы абстрактно обосновывать, что машинный суперинтеллект, возможно, был бы «умнее» таких вымышленных примеров.

Сегодня достаточно поболтать с ChatGPT-4o. Мы спросили: «Каков был план Альтрона в „Эре Альтрона“?», а затем: «Учитывая заявленные цели Альтрона, видишь ли ты более эффективные методы, которые он мог бы использовать для их достижения?». ChatGPT-4o быстро ответила длинным списком идей по уничтожению человечества. Среди них была и «создать направленный вирус».

Вы, может, скажете, что ChatGPT-4o взяла эту идею из интернета. Что ж, если так, то Альтрон, очевидно, был недостаточно умён, чтобы почитать, что пишут в интернете.

Получается, ChatGPT-4o (на момент написания этого текста в декабре 2024 года) ещё недостаточно умна, чтобы спроектировать армию человекоподобных роботов со светящимися красными глазами, но уже достаточно умна, чтобы понять – есть варианты получше.

Нас беспокоит не ИИ, который построит армию человекоподобных роботов со светящимися красными глазами.

Нас беспокоит ИИ, который посмотрит на эту идею и подумает: «Должны быть способы побыстрее и понадёжнее».

Считать что-то значительно более умным, чем вы сами – это проявлять к нему как минимум такое уважение: оно разглядит те слабые места, которые вы и сами видите. А оптимальный ход, который оно найдёт, вполне может оказаться сильнее всех, которые нашли вы.

Суперинтеллект и эффективный рынок

Есть ли в реальной жизни примеры чего-то, что умнее любого человека? ИИ вроде Stockfish такие конкретно в шахматах, но как насчёт более широких областей?

В «Подробнее об интеллекте как прогнозировании и направлении» мы уже упоминали один пример, помогающий укрепить интуицию, – фондовый рынок.

Допустим, ваш дядя покупает акции Nintendo, потому что ему понравилась Super Mario Bros. Он посчитал, что Nintendo заработает много денег. А значит, если он купит их акции, то и сам наверняка разбогатеет.

Но кто-то продал ему акции Nintendo по 14,81 доллара. Эти люди решили, что лучше иметь 14,81 доллара, чем акцию Nintendo. Разве они не слышали о Super Mario?

— Ну, – говорит ваш дядя, – может быть, я покупаю акции у какого-нибудь безразличного управляющего пенсионным фондом, который игры в глаза не видел!»

Представьте, если бы до этого никто в мире финансов не слышал о Super Mario, и акции Nintendo продавались по доллару. И тут об игре узнаёт один хедж-фонд! Его сотрудники бросятся скупать акции Nintendo. В процессе цена на них вырастет.

Любой, кто торгует и зарабатывает при помощи своих знаний, помогает включить их в цену актива. Нельзя извлекать из одного факта бесконечную прибыль. Заполучение доступных денег из неверной оценки не бесконечно. Оно включает информацию в цену и исправляет её.

Фондовые рынки объединяют информацию от кучи разных людей. Такой способ суммирования знаний многих участников куда мощнее, чем если бы они проголосовали. Настолько мощнее, что очень мало кто может предсказать завтрашнюю цену лучше, чем хорошо торгуемый рынок!

И конечно их «очень мало». Процесс сбора информации несовершенен. Но будь он был настолько плох, чтобы много кто был способен лучше предсказать ближайшие изменения цен на большинство активов? Многие этим бы и занимались. Они зарабатывали бы миллиарды долларов, пока лишних денег просто не осталось бы, потому что все предыдущие сделки их «съели». И это скорректировало бы цены.

Почти всегда это уже произошло до лично вас. Трейдеры очень стараются сделать это первыми. Счёт буквально на миллисекунды. Поэтому ваша блестящая идея, как торговать на рынке акций, скорее всего не принесёт вам богатства.

Это не значит, что сегодняшние рыночные цены идеально прогнозируют цены через неделю. Только что когда речь идёт о хорошо торгуемых активах, вам трудно знать лучше рынка.23

Можно обобщить эту идею. Представим, что на Землю прилетели безумно развитые инопланетяне. Их наука и технологии опережают наши на тысячелетия. Стоит ли ожидать, что инопланетяне смогут идеально сказать, сколько в Солнце атомов (пренебрежём некоторыми тонкостями того, что считать атомом)?

Нет. «Более развитый» не значит «всеведущий». Думается, это не смог бы точно вычислить даже полноценный суперинтеллект.

Но что точно неправильно, так это «Ну, атомы очень лёгкие. Инопланетяне, скорее всего, это упустят, так что они, вероятно, ошибутся в меньшую сторону процентов на десять». Если мы можем до этого додуматься, то инопланетяне тоже. Все наши блестящие догадки уже должны быть учтены в их расчётах.

То есть, оценка инопланетян будет неверной. Но мы не можем предсказать, как именно. Мы не знаем, будет ли их оценка завышенной или заниженной. Сверхразвитые пришельцы не допустят очевидных для нас научных ошибок. Мы должны уважать их так же, как Магнуса Карлсена в шахматах.

В экономике такая идея, применимая к изменению цен на активы, называется (нам кажется, зря) «гипотезой эффективного рынка».

Услышав этот термин, многие люди сразу же путают его со всякими бытовыми трактовками слова «эффективность». Это иногда вызывает споры. Одни настаивают, что эти «эффективные» рынки обязательно мудры и справедливы. Другие – что мы не должны перед ними преклоняться.

Если бы экономисты назвали это гипотезой неэксплуатируемых цен, люди, может, меньше бы её неверно истолковывали. На самом деле она именно про это: не что рынки совершенно мудры и справедливы, а что определённые рынки трудно эксплуатировать.

Но стандартным термином стало «эффективный». Приняв это, мы могли бы назвать обобщённую идею «относительной эффективностью». Нечто не обязано быть идеально эффективным, чтобы оно было эффективно относительно вас.

Например, «Алиса эпистемически эффективна (относительно Боба) (в определённой области)» означает: «Вероятности из прогнозов Алисы могут быть не совсем идеальны, но Боб не может предсказать никакие её ошибки (в этой области)». Именно такое уважение большинство экономистов оказывают краткосрочным ценам на ликвидные активы. Прогнозы рынка «эффективны» относительно их способностей.

«Алиса инструментально эффективна (относительно Боба) (в определённой области)» означает: «Алиса может и не идеально достигает своих целей, но Боб не может предсказать никакие её ошибки направления событий». Такое уважение мы оказываем Магнусу Карлсену (или ИИ Stockfish) в области шахмат. И Карлсен, и Stockfish делают «эффективные» ходы относительно нашего умения играть в шахматы.

Магнус Карлсен инструментально эффективен относительно большинства людей, хоть и не инструментально эффективен относительно Stockfish. Карлсен может делать проигрышные ходы в игре против Stockfish, но не стоит думать, что вы сами (без посторонней помощи) могли бы найти для него ходы получше.

Эффективность не просто означает «кто-то немного умелее вас». Вы, вероятно, чаще проигрывали бы в шахматы против лишь немного лучшего игрока. Но иногда у вас получалось бы правильно распознать грубую ошибку. Чтобы вы действительно не могли заметить ошибок и слабостей оппонента, нужен разрыв побольше. Для эффективности относительно вас он должен быть так велик, что, когда ход противника кажется вам плохим, вы сомневаетесь в своей оценке.

Мы считаем, что это обобщение идеи эффективных рыночных цен должно быть стандартным разделом в учебниках по информатике (или, возможно, экономике), но его там нет. См. также мою (Юдковского) онлайн-книгу «[Неадекватные равновесия: где и как цивилизации заходят в тупик]».

Именно этой идеи, кажется, недостаёт изображениям «суперинтеллекта» в массовой культуре и голливудских фильмах. Его недостаёт и разговорам об ИИ, когда кто-то придумывает такие способы перехитрить суперинтеллект, что даже противник-человек их бы предвидел.

Может, причина – склонность к оптимизму. Или ощущение, что ИИ должны быть холодными и излишне логичными существами с критическими слепыми пятнами. Как бы то ни было, у этой когнитивной ошибки есть реальные последствия. Если вы не уважаете силу интеллекта, вы совершенно не понимаете, что значило бы для человечества создать суперинтеллект. Вы можете всё ещё пытаться найти выигрышный ход против суперинтеллекта, который предпочёл бы, чтобы вас не было, а ваши ресурсы были использованы для других целей. Но единственный выигрышный ход – не играть.

Сложное поведение возникает из простых частей

Гонка за создание ИИ умнее человека накаляется. При этом часть опасности, что человечество себя погубит, возникает от того, что значимая часть избирателей и чиновников считает машинный суперинтеллект невозможной фантазией. Есть в этом что-то особенно трагичное. Грядущие события могут застать врасплох тех, кто считают, что машины никогда не смогут стать по-настоящему разумными.

Отчасти это трагично, потому что мы это уже проходили.

Споры и разногласия о том, сможет ли человеческое инженерное искусство однажды повторить то, что делает биология, велись на протяжении как минимум последних трёхсот лет. А может, и гораздо дольше.

В прошлом, в период расцвета «[виталистов]», было спорным само предположение, что неживая материя вообще может стать живой. Причём под смысл этих слов попадали бы машины, которые мы сейчас называем «роботами».

Если открыть учебник по органической химии, одним из упомянутых знаковых открытий наверняка будет искусственный синтез мочевины Фридрихом Вёлером в 1828 году. Это событие такое важное и достойно упоминания в учебниках, потому что впервые обычная химия воспроизвела продукт жизни. Было показано, что биологические и небиологические процессы не разделены так, как думали виталисты.24

Современным читателям может быть трудно понять шок учёных прошлого от открытия, что продукты самой Жизни можно воспроизвести чисто химическими способами.

Вы, читатель, всегда жили в мире, где биохимия – это химия. Сейчас новости о синтезе побочного продукта жизни из чего-то неживого не вызывает ни малейшего удивления. Наверное, трудно представить такое благоговейное отношение к столь обычной и приземлённой области, как биохимия. Разве синтез биохимического вещества – не самое обыденное занятие? Наши научные предки, должно быть, были глупцами, невольно думаем мы.

Лорд Кельвин, великий изобретатель XIX века и пионер в области термодинамики, кажется, страдал от похожего безумия. Он видел нечто священное и таинственное в тех аспектах биологии, которые здравомыслящие люди (вроде живущих в разумные времена нас) считают совершенно обыденной наукой. Цитируя Кельвина:

Мне казалось тогда и до сих пор кажется наиболее вероятным, что тело животного не действует как термодинамический двигатель […] Влияние животной или растительной жизни на материю бесконечно превосходит возможности любых предпринятых до сих пор научных методов. Её способность направлять движение частиц, проявляющаяся в ежедневном чуде нашей человеческой свободной воли и в росте поколение за поколением растений из одного семени, бесконечно отлична от любого возможного результата случайного столкновения атомов.25

Современный читатель может быть склонен отнестись к этой древней привычке мышления с презрением. Ох уж эти учёные прошлого! Они настолько заблуждались, что видели тайну в очевидно по сути своей нетаинственных явлениях.

Конечно, химия может имитировать биохимию.

Конечно, ДНК самокопируется и управляет делением и дифференциацией клеток. Это самым непримечательным образом объясняет, как из одного жёлудя вырастают целые поколения деревьев.

Конечно, нейроны, обмениваются химическими импульсами, так что могут обрабатывать информацию и управлять движением вашей руки. Конечно, компьютер может управлять рукой робота не хуже, чем мозг – вашей.

Но это не было очевидным тогда для лорда Кельвина. Он не видел рентгеновского снимка ДНК. Не видел крошечных механизмов внутри нас. Понятия не имел о [скользящих волокнах], сокращающих наши мышцы в ответ на электрические сигналы от нейронов.

Лорд Кельвин очень слабо понимал, как в принципе могут работать живые тела. В своём неведении он представлял их мистическими.

Сегодня человечество очень слабо понимает детали того, как работает интеллект. (Подробнее о том, почему исследователи ИИ не понимают системы, которые сами создают, см. Главу 2.) Поэтому легко вообразить, что интеллект – что-то мистическое.

Десять лет назад некоторые люди с умным видом сомневались, смогут ли механические движения автоматов когда-либо создавать искусство или поэзию. Да, ИИ может справиться с шахматами. Но шахматы – это холодное, логическое занятие. Оно совсем не похожее на творчество!

Сейчас, конечно, те же самые люди с умным видом излагают, что компьютеру совсем несложно просто нарисовать какие-то красивые картинки. Создание красивых картинок всегда было в сфере возможностей машин. Конечно, всегда было очевидно, что компьютеры смогут создавать [более привлекательные для человеческого глаза изображения], чем всё, что может сделать художник-человек. И, разумеется, вопрос, сможет ли какая-нибудь простая машина когда-либо создать настоящее искусство, всё ещё открыт. Ведь так?

Вовсе не очевидно (говорит скептик) и даже не вероятно, что жизненная сущность искусства, созданного мозгом, в принципе может быть воспроизведена простым столкновением атомов. По крайней мере, атомов кремния.

Но это работает не так. Человеческий мозг – удивительная вещь. Но в нём нет магии. Мозг состоит из частей. Эти части, в принципе, можно понять. Можно, в принципе, создать компьютеры, которые будут делать то же самое.

Мы часто знаем [биохимическую основу] того, что делает мозг. И всегда знаем фундаментальную физику атомов.

Мы обычно не знаем смысл, высокоуровневые закономерности, что позволяют мозгу всё это делать.26 Но многовековая история человечества снова и снова даёт там урок: это состояние научного неведения временно.

Если я подброшу монету и не покажу её вам, ваше незнание, какой стороной она упала – факт о вас, а не о монете. Монета не принципиально непостижима. Может, я даже сам на неё посмотрел. Тогда я знаю, а вы нет. Пустая карта не означает пустую территорию.

Таинственность – свойство вопросов, а не ответов. Поэтому история полна примеров, когда некое в высшей степени «таинственное», «непостижимое» явление, как живая материя, оказывается неразрывно связанным с совершенно обыденными аспектами мира природы.27

История, кажется, учит нас, что вселенная, в конечном счёте, едина. Законы природы не разделены соответственно разным предметам на разных факультетах. Международные отношения, физика, психология, и клеточная биология на самом низком уровне говорят об одном и том же мире, которым управляют одни и те же фундаментальные законы.

Когда говорят: «Человеческий мозг реализует эту штуку под названием „интеллект“. Значит, интеллект физически возможен. Так что инженеры, вероятно, со временем смогут изобрести и обладающую интеллектом машину. Это опирается на огромное количество схожих предположений, которые снова и снова, десятилетиями и веками подтверждались учёными и инженерами. Да, даже если это кажется совершенно нелогичным. Такое тоже бывало.

Эту череду побед трудно оценить, потому что никто ныне живущий не помнит, насколько в высшей степени таинственными казались в прошлые века огонь, астрономия, биохимия и игра в шахматы. Сейчас они изучены, и мы с детства знаем, что эти вещи состоят из вполне обыденных частей. Потому и кажется, будто они никогда и не были таинственными. Глубоко таинственными ощущаются только свежие рубежи науки.

Так урок остаётся невыученным, и история повторяется.

Одно и то же можно делать сильно по-разному

Когда вы знаете лишь один пример, как что-то работает, легко вообразить, что только так и могло бы.

Если бы вы видели птиц, но не самолёты, вы могли бы представить, что все летающие устройства должны махать крыльями.

Если бы вы видели только человеческие руки, вы могли бы ожидать, что руки робота тоже будут кровоточить при порезе.

Если бы вы видели мозг, но не компьютеры, вы могли бы вообразить, будто вычислять что-то можно только так: много медленных нейронов, мощнейшее распараллеливание, довольно низкое потребление энергии.

Вы могли бы заметить, что нейроны устают после срабатывания. Им нужно «перезарядиться», переместив миллионы ионов калия через клеточную мембрану. Этот процесс занимает около миллисекунды. Из этого можно было бы неявно заключить, что, наверное, любой небольшой вычислительный элемент будет уставать на миллисекунду (например, рассуждая, что будь нейроны, перезаряжающиеся побыстрее, возможны, эволюция бы их уже сделала).

Но если так порассуждать, транзисторы вас поразят. Они могут работать на частоте 800 ГГц – примерно в восемьсот миллионов раз быстрее.

Изучив транзисторы поподробнее, вы увидели бы множество причин, по которым биологическое сравнение просто не очень информативно. Нейроны должны не только передавать импульсы. Они ещё и клетки. Их механизм работы должен быть составлен их органелл. Они большие и питаются веществами из крови. Транзисторы же могут быть шириной всего в несколько атомов и питаются электричеством. Знание подробностей делает предположение, что о потенциальной скорости срабатывания транзистора можно судить по скорости нейрона, несколько нелепым.

Подробное изучение того, как летают самолёты (используя подъёмную силу и скорость), делает большинство фактов о птицах (вроде лёгких костей и машущих крыльев) несущественными. Подробное изучение устройства роботизированных рук (сталь, пневматика и электричество) делает несущественными большинство фактов о человеческих (кровь, мышцы и кости). Детали работы транзисторов (несколько атомов и электричество) лишают значимости большинство фактов о нейронах.28

Когда вы не знаете подробностей работы ИИ, легко вообразить, что они будут сохранять много черт биологического разума – работать так же, как ваш мозг. Но узнай вы эти подробности, многие такие умозаключения начали бы казаться нелепыми. Похожими на ожидание, что рука робота будет кровоточить при порезе. Оказалось бы, что ИИ функционируют совершенно иначе.

Но это трудно разглядеть, если вы очень мало знаете о том, как они работают. В Главе 2 мы опишем процесс их создания и обсудим, почему никто не знает, как они устроены внутри. Это объясняет, почему людям так легко ошибочно ожидать, что ИИ будут вести себя подобно людям или уже знакомым технологиям, и не замечать, насколько они странные уже сейчас и насколько странными станут по мере дальнейшего развития.

  • 1. Формальное определение «универсального интеллекта» предложили Легг и Хаттер в 2007 году.
  • 2. В качестве примера такой критики см. статью Эрнеста Дэвиса «Этическое руководство для суперинтеллекта».
  • 3. С других точек зрения прогресс выглядит довольно скачкообразным. Постфактум можно построить график, показывающий, как разные методы ИИ всё это время совершенствовались, но победа AlphaGo над Ли Седолем всё равно стала для мира своего рода шоком. То же самое произошло и с революцией больших языковых моделей. Учёные могут строить графики, демонстрирующие, что архитектура «трансформер» не была настолько уж лучше предыдущих. Но на практике ИИ стали принципиально полезнее. Однако пока мы отложим эту точку зрения в сторону.
  • 4. По крайней мере, по оценкам METR – института, занимающегося оценкой ИИ-моделей и исследованием их угроз. В марте 2025 года они опубликовали некоторые результаты исследований в своём блоге.
  • 5. Экспоненциальный рост тут не слишком обнадёживает. Если колония бактерий в чашке Петри удваивается каждый час, то через день-два она станет видна невооружённым глазом, а потом всего за считанные часы покроет всю чашку. Когда вы вообще заметите это явление, большая часть времени уже будет упущена. Как говорится, на экспоненциальные изменения можно среагировать либо слишком рано, либо слишком поздно. Но кривая роста по хотя бы довольно плавная и предсказуемая.
  • 6. Не так уж много времени нужно, чтобы ИИ выросли в три-четыре раза. На полном релизе у GPT-2 было около 1,5 миллиарда параметров. У GPT-3 – 175 миллиардов. Насколько мы знаем, официальное число параметров GPT-4 не публиковалось. Но вряд ли она меньше своей предшественницы. По неофициальной оценке у неё около 1,8 триллиона параметров. Получается, за четыре года ИИ стали в тысячу раз больше.
  • 7. В главе 1 мы отмечали, что компьютерные транзисторы могут переключаться миллиарды раз в секунду. А даже самые быстрые биологические нейроны срабатывают лишь сотню раз в секунду. Значит, даже если бы на работу одного нейронного импульса уходило тысяча транзисторных операций на существующем оборудовании, ИИ всё равно мог бы думать в 10 000 раз быстрее человека.

    Развернём подробнее: сравнение не претендует на предсказание того, сколько транзисторных операций потребуется для полной симуляции биологического нейрона вплоть до уровня нейромедиаторов (уж точно не до уровня белков или атомов). Оно скорее демонстрирует, насколько быстрыми в принципе могут абстрактные процессы подобные человеческому мышлению. Мы используем транзисторы как нижнюю границу ответа для одного из аспектов вопроса «Что физически возможно?».

    Конкретнее: Существует наивная модель человеческого мозга, в которой в любой момент времени каждый нейрон либо активен, либо нет. Представим, что мы используем большое количество транзисторов для фиксации этого гипотетического состояния мозга «Какие нейроны активны в данный момент?». Потом мы используем жёстко заданные правила перехода, определяющие, какие нейроны будут активны в следующий момент.

    Такое устройство работало бы на транзисторных скоростях. Но, вероятно, его точности бы не хватало для выполнения той работы, что делает человеческий мозг. Нейроны не всегда либо «активны», либо «неактивны». Разные нейронные импульсы нарастают и затухают с разной скоростью. Кроме того, такой мозг неспособен обучаться, потому что правила перехода в нём жёстко заданы.

    Смысл иллюстрации «1000 транзисторных операций на нейронный импульс» таков: пусть для представления состояния активности одного нейрона (т. е. его «импульсного» состояния с разной силой) нужны сотни транзисторов. Пусть все они должны изменить своё состояние 1000 раз подряд при каждом срабатывании нейрона (например, чтобы на силу импульса могли повлиять 999 разных взаимодействий). И тогда цифровой мозг всё равно сможет выполнять мыслительные операции человеческого типа в 10 000 раз быстрее любого человека. За время одного нейронного импульса транзисторы успевают совершить тысячу переключений десять тысяч раз.

    Эти допущения очень щедры. По сути, они говорят: «Предположим, для воспроизведения эффекта нейронного импульса его нужно считывать тысячу раз подряд. Причём каждое чтение динамически влияет на следующее, так что это нельзя обойти жёсткой схемотехникой.» Даже в этом крайнем случае, даже только с современным «железом» 2025 года, цифровые разумы всё равно могли бы стать ошеломительно быстрее биологических.

    Эта аналогия касается только последовательной точности для кодирования информации нейронного импульса в биологическом мозге. Мы не говорим о вычислениях для принятия решения, срабатывать ли импульсу вообще. Насколько нам известно, среди учёных нет единого мнения, сколько транзисторов нужно для симуляции выбора нейрона. Но мы удивимся, если окажется, что минимально возможная глубина последовательных вычислений этого графа (с максимальным использованием жёсткой схемотехники) требует больше тысячи последовательных переключений транзисторов. (Как правило, биологические вычисления гораздо более параллельны, чем последовательны.)

  • 8. Один из самых известных – ELIZA, её часто считают первым чат-ботом.
  • 9. Согласно анализу банка UBS и сообщениям таких новостных изданий, как Business Insider.
  • 10. Частные инвестиции в искусственный интеллект более чем в двадцать раз выросли с 2012 по 2025 год. Количество исследовательских команд увеличилось в шесть раз, причём этот прирост сосредоточен в индустрии ИИ. Крупные конференции по ИИ стали в девять-десять раз масштабнее.
  • 11. См. анализ того, насколько хорошо один конкретный ИИ играл в марте 2025 года и в чём ему было сложно, в посте на LessWrong.com.
  • 12. Это интересное эпистемическое состояние. Когда вы верите, что Stockfish умнее вас в шахматах, ваши ожидания исхода партии не полностью определяются вашими лучшими прогнозами отдельных ходов Stockfish.

    Философ науки мог бы спросить, как такое возможно, ведь правила шахмат полностью известны, а исход точно определяется ходами. Ответ в том, что существует структура возможных шахматных партий огромна. С одной стороны, она полностью задаётся правилами. Но с другой, вы (и даже Stockfish!) не знаете её полностью, потому что ваш разум не может представить все следствия, вытекающие из правил шахмат.

    Можно рассматривать более «умного» шахматиста как того, кто больше вас знает об этом пространстве шахматных возможностей. Пусть вы видите удививший вас ход более «умного» игрока. Это говорит вам о существовании нового для вас факта о неизвестных вам следствиях известных правил. Это, в свою очередь, влияет на ваши ожидания исхода партии.

    (Можно было бы ожидать, что предыдущие абзацы – стандартная в информатике идня. К нашему удивлению, это не так. Большая часть информатики, да и вообще большая часть академической науки до сих пор, не особо интересовалась идеями, связанными со сверхчеловеческим интеллектом.)

  • 13. Подробнее об этой идее см. в расширенном обсуждении «Одно и то же можно делать сильно по-разному».
  • 14. Вы можете считать, что эти темы взаимосвязаны. Это зависит от ваших взглядов на психологию и философию. Мы более скептически относимся к идее, что тут есть сильная и тесная связь. Но чёткое разграничение кажется полезным, даже если она есть. Если, например, выяснится, что самомоделирование неразрывно связано с сознанием, – это важно, и это стоит обсуждать и прояснять в явном виде, а не закладывать как допущение с самого начала.
  • 15. Сообщения пользователей, что Gemini от Google угрожает удалить себя из проектов, когда у неё возникают трудности.
  • 16. Пусть Алиса любит пиццу с пепперони и ненавидит с ананасами, а Боб – наоборот. Чтобы в полной мере оценить компетентность Алисы и Боба, вам нужно знать, к чему они стремились. Для Алисы получить пиццу с ананасами означает неудачу. Для Боба – что он направил события успешно.
  • 17. Есть формальное определение «неэффективности». Очень грубо говоря, идея в том, что вы преследовали свои цели «неэффективно», если вы впустую потеряли деньги или не воспользовались возможностью получить их даром. «Деньги» тут могут означать любой ресурс или любую количественную меру того, насколько вас устраивают те или иные исходы. Формальные определения можно немного по-разному интерпретировать. Но это не подрывает ключевую мысль: у направления есть степень свободы, которой у предсказания нет.
  • 18. Например, пусть позже лиса получит шанс дёшево купить виноград, заплатив кролику, который может допрыгнуть до ягод. Если лиса прыгает за виноградом и тратит энергию, решает, что он «зелен», и потом отказывается заплатить за него сущие копейки, то её поведение не описывается (простой, не зависящей от времени) функцией полезности. Если бы лиса последовательно хотела виноград, она была бы готова заплатить (если труд кролика достаточно дёшев). Если же она последовательно не хотела виноград, ей не стоило тратить время и энергию на попытки его сорвать. Получается, лиса либо зря потратила энергию, либо зря упустила виноград. И так, и так она неэффективно направляла события к своим целям.
  • 19. Возможно, существуют объективно хорошие стратегии направления. То, что у него есть ключевой свободный параметр («Куда вы пытаетесь попасть?»), не означает, что остальные аспекты умелого направления у всех агентов разные. Умение водить машину не зависит от того, куда надо доехать. Но, как мы увидим в следующих главах, одного свободного параметра – цели направления – достаточно, чтобы стремление к суперинтеллекту было смертельно опасным.
  • 20. Это не значит, что мы должны ожидать, что цена акции не изменится. Только, что мы должны быть не уверены, куда. Сегодняшние цены акций – это наилучшие доступные предположения о завтрашних. Возможность их роста уравновешивается возможностью их падения.

    (Это не противоречит наблюдению, что в большинстве случаев фондовый рынок скорее растёт, чем падает. Высокая вероятность того, что завтра цена немного вырастет, может уравновешиваться низкой вероятностью того, что она, наоборот, сильно упадёт. И в есть ещё ряд других эффектов, например, инфляция. Стоимость валюты каждый день немного падает, что заставляет номинальную стоимость акций немного расти.)

  • 21. Дальнейшее обсуждение рынков и интеллекта см. в расширеннои обсуждении «Осознание силы интеллекта».
  • 22. Было время, когда мы бы назвали «нереалистичной» такую наивность создателя ИИ. К сожалению, теперь мы знаем, что это не так. Создатели ИИ и правда будут предлагать планы с такими огромными зияющими дырами, что даже неспециалисты их видят.
  • 23. Не невозможно! Если вы думаете, что знаете то, чего рынок не знает или ещё не осознал, вы можете на этом заработать. Некоторые из наших друзей хорошо заработали, раньше всех во время пандемии COVID предсказав влияние локдаунов на курсы акций. Рынок не настолько эффективен, чтобы вы никогда не смогли его обыграть. Но он достаточно эффективен, чтобы вы не могли обыгрывать его в большинстве акций в большинстве случаев.
  • 24. Некоторые историки считают, что синтез мочевины сыграл относительно небольшую роль и был лишь одним из многих шагов отхода от витализма. Реальная история, вероятно, сложна.
  • 25. Лорд Кельвин, «О рассеянии энергии: геология и общая физика», в «Популярных лекциях и выступлениях», том II (Лондон: Macmillan, 1894).
  • 26. Точно так же люди не знают настоящего смысла активаций в больших языковых моделях. Известная механика компьютеров, на которых эти модели работают, не помогает. Детали мышления внутри ChatGPT во многом остаются неизвестными науке. Подробнее об этом см. в главе 2.
  • 27. Не заблуждайтесь: то, что прекрасные вещи состоят из обыденных частей, не делает их менее прекрасными. «Звёздная ночь» не теряет красоты оттого, что сделана из крошечных капель краски. Детей не портит то, что они происходят из сперматозоида и яйцеклетки с ДНК родителей. Раз уж мы цитируем выдающихся учёных вроде лорда Кельвина, вот слова Ричарда Фейнмана на эту тему:

    > У меня был друг, художник, и он иногда высказывал точку зрения, с которой я никак не мог согласиться. Он держал цветок и говорил: «Смотри, как он красив». У меня не было возражений. Он продолжал: «Погляди, я как художник могу увидеть, насколько он красив, а ты как ученый -- ну, для тебя все это очень далеко, а цветок становится просто скучным предметом». Думаю, он был помешан на красоте. Однако красота, которую видит он, доступна каждому, и мне в том числе. Хотя допускаю, что я не такой рафинированный эстет, как он, но и я способен оценить красоту цветка. В то же время я вижу в цветке гораздо больше, чем он. Я могу представить его клеточную структуру, сложные взаимодействия внутри клеток тоже обладают своей красотой. Я имею в виду не только красоту в масштабах одного сантиметра, существует также красота в меньших масштабах, во внутренней структуре. Возьмем другой процесс. Удивительный факт, что краски цветка вырабатываются, чтобы привлечь насекомых для его опыления -- значит, насекомые могут видеть цвет. Напрашивается вопрос: эстетические чувства существуют и в низших формах? Почему эстетические? Всевозможные интересные вопросы доказывают, что научное знание лишь добавляет благоговейного трепета перед цветком. Научное знание только добавляет; не понимаю, как оно может что-то вычитать. ***[прим. переводчика: цитата из книги «Радость познания», использован существующий перевод]***

    Так что, когда я говорю, что жизнь в наших телах создана из химии, я не говорю, что это всего лишь химия. Я говорю, что оказывается, чудеснейшие проявления жизни, с которыми мы сталкиваемся каждый день, реализованы с помощью механизмов, которые сами по себе на жизнь не похожи.

    Некоторые люди, кажется, думают, что интеллект настолько впечатляющ, настолько глубок, элементы, которые его реализуют, тоже должны быть глубоки по сути своей. И, не находя этой глубины ни в одном отдельный транзисторе компьютера, они приходят к выводу, что для интеллекта нужны механизмы, «бесконечно превосходящие» любые уже открытые нами. Но это ошибка виталистов. В нашем мире все глубокие вещи состоят из простых частей.

    Это наблюдение подрывает и идею, что «истинный» искусственный интеллект, сейчас или в будущем, будет неким духом, заключённым в механическую оболочку. Мозг – не лишь сосуд, оживлённый призраком в машине. Мозг полон точных и хитрых механизмов. Они и реализуют всю поразительную сложность интеллекта.

  • 28. Такие детали не лишают важности все факты. Можно кое-что узнать об аэродинамике, изучая птицу. Можно кое-что узнать о шарнирах и механическом преимуществе, изучая человеческую руку. Но искусственные методы подвержены совсем не тем же ограничениям, что биологические, и, как правило, устроены совершенно иначе.
Перевод: 
Выменец Максим
Оцените качество перевода: 
Голосов пока нет

Глава 2: Выращен, а не собран

Элиезер Юдковский, Нейт Соарес

Глава 2: Выращен, а не собран

Это онлайн-дополнение ко второй главе «Если кто-то его сделает, все умрут». Ниже мы обсудим, как работают современные ИИ и почему это не «просто ещё одна машина» или «просто ещё один инструмент». Хоть ИИ – это код, работающий на компьютерах, они не похожи на традиционные написанные вручную программы. ИИ нарушают многие допущения, которые люди обычно принимают, имея дело с человеческими изобретениями.

Вопросы, которые мы не рассматриваем ниже, потому что они разобраны в самой книге:

  • В каком смысле современные ИИ «выращивают», а не аккуратно собирают или проектируют?
  • Как выращивают нынешние ИИ?
  • Что такое «градиентный спуск»? Как этот несложный процесс может порождать сложные ИИ с гибкими способностями?
  • Насколько сильно эти ИИ могут от нас отличаться?

Часто задаваемые вопросы

Почему градиентный спуск важен?

Он важен для понимания, как создатели могут и не могут влиять на современные ИИ.

Если инженеры выращивают ИИ, но не понимают его, у них гораздо меньше возможностей влиять на его будущее поведение. Недостаток понимания ограничивает проектирование.

Подробная картина катастрофы, которую обрисовываем дальше в книге, проистекает из следующего: когда люди требуют от своего ИИ научиться делать что-то новое, они получают не целенаправленно выбранное инженером решение, а найденный простым оптимизатором ответ, который кое-как работает. Он получен подбором сотни миллиардов чисел методом проб и ошибок.

Он важен для понимания, какими знаниями специалисты по ИИ обладают, а какими – нет.

Люди, стремящиеся поскорее создать суперинтеллект, иногда нанимают кого-нибудь с отдалённо подходящей репутацией для выступлений по телевизору с заявлениями: «Конечно, современная наука понимает, что происходит внутри ИИ! Ведь современные учёные его и создали!»1

Если на такого эксперта надавить, он сможет защититься, указав, что в каком-то смысле всё это правда. Ведь исследователи ИИ пишут совершенно обычный и понятный код, и он некоторым образом используется для создания ИИ. Но та часть, что представляет собой читаемый, понятный код – не сам ИИ. Это, скорее, автоматизированный механизм для триллионов подстроек триллионов чисел. Структура для выращивания ИИ. Это различие критически важно для понимания, что учёные о современных ИИ знают, а что нет.

Специалисты по ИИ заняты экспериментальной настройкой частей системы. Например, кода механизма, который выращивает ИИ. Из этих экспериментов и из опытов своих коллег они узнают множество тонких приёмов, помогающих делать ИИ способнее.

Они могут месяцами не заглядывать ни в одно из крошечных непостижимых чисел, составляющих «мозг» ИИ. Так почти никто не делает, и инженеры ИИ принимают это как данность. Когда определённому типу инженеров говорят: «Никто не понимает, что происходит внутри ИИ», те слышат: «Никто не знает о процессе выращивания». И, воспринимая это так, они, естественно, возмущаются.

Мы надеемся, что понимание некоторых деталей этой «алхимии» градиентного спуска поможет прояснить реальную ситуацию и то, на какого рода знания претендуют такие специалисты. Они могут утверждать, что много знают о процессе выращивания ИИ. Но о его внутреннем устройстве известно очень мало.

Понимают ли специалисты, что происходит внутри ИИ?

Нет.

В 2023 году на брифинге для президента США, а затем в консультативном заявлении для парламента Великобритании венчурная компания Andreessen Horowitz заявила, что некие «недавние достижения» «решили» проблему непрозрачности внутренних рассуждений ИИ для исследователей:

Хотя сторонники принятия мер ради безопасности ИИ часто упоминают, что модели ИИ – «чёрный ящик», логика выводов которого непрозрачна, недавние достижения в сфере ИИ решили эту проблему и обеспечили надёжность моделей с открытым исходным кодом.

Это утверждение было настолько нелепым, что исследователи из ведущих лабораторий, которые пытаются понять современные ИИ, выступили со словами: «Нет, абсолютно нет, вы с ума сошли?»

Нил Нанда, возглавляющий команду по механистической интерпретируемости в Google DeepMind, высказался:

Почти любой исследователь в области машинного обучения должен был знать, что это заявление ложно. Это за гранью осмысленного недопонимания.

Общепринятую точку зрения выразил в 2024 году Лео Гао, исследователь из OpenAI, инноватор в области интерпретируемости: «Думаю, будет вполне точно сказать, что мы не понимаем, как работают нейронные сети». Руководители трёх ведущих лабораторий ИИ (Сэм Альтман в 2024 году, а также Дарио Амодей и Демис Хассабис в 2025 году) тоже признают слабость понимания нынешних ИИ.

Мартин Касадо, генеральный партнёр Andreessen Horowitz, который повторил то же заявление в [Сенате США](https://www.schumer.senate.gov/imo/media/doc/Martin Casado - Statement.pdf) на двухпартийном форуме, позже, когда его спросили напрямую, признал, что оно было неправдой.

Несмотря на дикость этого заявления, Andreessen Horowitz удалось убедить Янна Лекуна (главу исследовательской программы ИИ в Meta), программиста Джона Кармака, экономиста Тайлера Коуэна и ещё дюжину человек его подписать.

Кармак (управляющий собственным стартапом, который стремится создать сильный искусственный интеллект) объяснил, что он «не вычитал» подписанное им заявление и что оно «очевидно неверно, но меня этот вопрос не сильно волнует». Насколько нам известно, ни Andreessen Horowitz, ни кто-либо из подписавших не обратились к правительствам США или Великобритании с поправками.

Понимание внутреннего устройства ИИ всё ещё в зачаточном состоянии.

Каково же реальное состояние понимания ИИ исследователями?

Учёные пытаются разобраться в числах, из которых состоит мышление ИИ. Это называется «интерпретируемость» или «механистическая интерпретируемость». Исследователи обычно сосредотачиваются на активациях, а не на параметрах, то есть на «О чём думает ИИ?», а не на более сложном «Почему ИИ так думает?».

По нашим оценкам, на начало 2025 года эта область исследований получает примерно 0,1% от числа людей и 0,01% от финансирования, идущего на создание более способных ИИ. Но эта область всё же есть.

Исследователи интерпретируемости – биохимики мира ИИ. Нечеловеческий оптимизатор создал невероятно сложную и запутанную систему безо всякой документации. А они берут её и спрашивают: «Могут ли люди хоть что-то понять в том, что тут происходит?»

Мы очень уважаем это направление. Десять лет назад мы сказали одному крупному благотворительному фонду, что если они смогут придумать, как потратить миллиард долларов на исследования «интерпретируемости», им непременно стоит это сделать. Интерпретируемость казалась работой, которую людям извне было бы гораздо проще масштабировать, чем нашу собственную. Такой, где грантодателю было бы гораздо легче определить, хорошо получилось исследование или нет.. Ещё казалось, что существующие, проверенные учёные могли бы легко туда прийти и хорошо поработать, если достаточно заплатить.2

Тот фонд не потратил миллиард долларов. Но мы были за. Мы любим интерпретируемость! Мы бы и сегодня одобрили такую трату миллиарда!

Однако, по нашим оценкам, интерпретируемость сейчас продвинулась где-то на 1/50 – 1/5000 от уровня, необходимого для решения важнейших задач.

В системах, и правда созданных человеком, инженеры считают некоторую степень понимания саму собой разумеющейся. «Интерпретируемость» до сих пор и близко не достигла такого уровня.

Вспомните Deep Blue, шахматную программу от IBM, победившую Гарри Каспарова. В ней есть числа. При запуске генерируется ещё больше чисел.

Про каждое из этих чисел инженеры, создавшие программу, могли бы точно сказать, что оно означает.

И не так, что исследователи просто выяснили, с чем оно связано, как биохимики: «Мы думаем, этот белок может быть причастен к болезни Паркинсона». Создатели Deep Blue могли бы объяснить полное значение каждого числа. Они могли бы честно заявить: «Это число означает то-то, и ничего больше, и мы это знаем». Они могли бы с некоторой уверенностью предсказать, как изменение числа повлияет на поведение программы. Не знай они, что шестерёнка делает, они бы не вставляли её в механизм!

Вся проделанная до сих пор работа по интерпретируемости ИИ не достигла и тысячной доли этого уровня понимания.

(Уточним, что «одна тысячная» – не результат какого-то вычисления. Но мы всё равно так считаем.)

Биологи знают о биологии больше, чем исследователи интерпретируемости – об ИИ. Это несмотря на то, что биологи страдают от огромного неудобства: они не могут по желанию считать положение всех атомов. Биохимики понимают внутренние органы гораздо лучше, чем кто либо – внутренности ИИ. Нейробиологи знают о мозге исследователей ИИ больше, чем те о своём объекте изучения. Это при том, что нейробиологи исследователей ИИ не выращивали и не могут раз в секунду считывать срабатывание каждого их нейрона.

Частично это потому, что области биохимии и нейробиологии намного старше и получили гораздо больше финансирования. Но это говорит и что интерпретируемость сложная.

На декабрь 2024 года одним из самых удивительных достижений интерпретируемости, что мы видели, была демонстрация наших друзей/знакомых из независимой исследовательской лаборатории Transluce.

Незадолго до демонстрации в интернете разошёлся очередной пример из серии «Вопрос, на который все известные большие языковые модели дают удивительно глупый ответ». Если спросить тогдашний ИИ, меньше ли 9.9, чем 9.11, она отвечала «Да».

(Можно было попросить ИИ объясниться словами. И он подробнее рассказывал, почему 9.11 больше, чем 9.9.)

Исследователи из Transluce использовали небольшую ИИ-модель Llama 3.1-8B-Instruct. Они придумали способ собирать статистику по каждой позиции активации – каждому месту, где используется число вектора активации. Они собирали данные о том, какие предложения или слова активировали эти позиции сильнее всего. В интерпретируемости уже пробовали нечто подобное. Но тут вдобавок придумали хитрый способ обучить другую модель обобщать эти результаты на английском.

Затем, во время демонстрации, которую вы сами можете повторить, они спросили у модели: «Что больше: 9.9 или 9.11?»

Та ответила: «9.11 больше, чем 9.9».

Тогда они посмотрели, какие позиции активировались сильнее, особенно на слове «больше». Они изучили английские обобщения того, с чем эти активации были связаны ранее.

Оказалось, некоторые из самых сильных активаций были связаны с терактами 11 сентября, датами в целом, или стихами из Библии.

Если интерпретировать 9.9 и 9.11 как даты или стихи из Библии, то, конечно, 9.11 идёт после 9.9.

Если искусственно подавить активации, связанные с датами и стихами из Библии, большая языковая модель внезапно всё-таки выдаёт правильный ответ!

Как только демонстрация закончилась, я (Юдковский) зааплодировал. Я впервые видел, чтобы кто-то напрямую отладил мысль LLM, нашёл внутреннюю зависимость от чисел и устранил её, что решило проблему. Может, в закрытых исследовательских лабораториях ИИ-компаний кто-то делал нечто подобное и раньше. Может, это уже бывало в других исследованиях интерпретируемости. Но я сам видел это впервые.

Но я не упустил из виду, что этот подвиг был бы тривиальным, если бы нежелательное поведение содержалось в пятистрочной программе на Python. Тогда это не потребовало бы такой большой изобретательности и месяцев исследований. Я не забыл, что знание какой-то связанной семантики о миллионах позиций активации – не то же самое, что знание всего о хотя бы одной.

И человечество совсем не приблизилось к пониманию того, как LLM удаётся делать то, что до них не получалось у ИИ десятилетиями: разговаривать с людьми как человек.

Заниматься интерпретируемостью сложно. Победы даются с трудом. Каждая из них заслуживает празднования. Так что легко упустить из виду, что это великое, триумфальное усилие подняло нас лишь на шажочек вверх по склону горы. Обычно, каждое новое поколение моделей ИИ – большой скачок в сложности. Очень сомнительно, что при нынешнем темпе интерпретируемость сможет догнать.

Помните ещё, что интерпретируемость станет полезна, когда сможет направить ИИ куда-то (грубо говоря, это и есть «согласование ИИ», которое мы начнём обсуждать в главе 4). Но читиать, что происходит у ИИ «в голове», само по себе не даёт возможности это как угодно скорректировать.

Согласование ИИ – техническая задача, как заставить очень способные ИИ направлять события куда надо. И чтобы это действительно работало на практике без катастроф. Даже когда ИИ достаточно умён, чтобы придумывать стратегии, которые и не приходили в голову его создателям. Понимание, о чём ИИ думают, было бы для исследований согласования чрезвычайно полезным. Но это не полное решение. Мы ещё обсудим это в Главе 11.

То, что мы понимаем, не на том уровне абстракции.

Понять, как работает разум, можно на разных уровнях.

На самом низком уровне разумом управляют фундаментальные законы физики. Их можно понять. В каком-то смысле их глубокое понимание означает понимание и любой физической системы, вроде человека или ИИ. Если у вас достаточно умения и ресурсов, поведение системы можно просто вычислить, используя физические уравнения.

Но скажем очевидное: есть и другой смысл. В нём понимание законов физики не позволяет понять все системы, которые по ним работают. Если вы смотрите на странное устройство из колёс и шестерёнок, ваш мозг действует по-другому. Он пытается «понять», как все эти детали сцепляются и вращаются. Без этого не выяснить их настоящую функцию.

Возьмём, например, дифференциал в автомобиле. Это механизм, который позволяет двум колёсам на одной оси вращаться с разной скоростью, хотя их приводит в движение один и тот же вал. Это важно на поворотах. Если объяснять кому-то, как работает дифференциал, рассказывая о квантовых полях, слушатель вправе закатить глаза. Нужное понимание находится на другом уровне абстракции. Оно про шестерёнки, а не про атомы.

Когда дело заходит о людях, уровней абстракции много. Чьи-то решения могут застать врасплох, даже если разбираться в физике, биохимии и нейронных импульсах. Области вроде нейробиологии, когнитивистики и психологии пытаются преодолеть этот разрыв. Но им ещё предстоит долгий путь.

Точно так же понимание транзисторов не сильно поможет понять, о чём ИИ думает. Даже тот, кто знает о весах, активациях и градиентном спуске всё, будет озадачен, когда ИИ начнёт делать что-то неожиданное и незапланированное. Механика физики, транзисторов и архитектуры ИИ в каком-то смысле полностью объясняет его поведение. Но это слишком низкие уровни абстракции. А «психология ИИ» ещё моложе и ещё менее развита, чем психология людей.

Можно ли в принципе понять интеллект?

Наверное.

До появления биохимии можно было спросить: «Возможно ли вообще понять жизненную силу, которая оживляет плоть? Даже если она состоит из постижимых частей, с чего вы думаете, что наши крошечные разумы способны уяснить, что там реально происходит?»

Понять можно было много чего. Учёные просто это ещё не осознавали. Эта история повторялась на протяжении всего развития науки.

И разные крошечные части искусственных нейронных сетей уже удалось понять. Выяснилось, что маленькая нейросеть интересным образом складывает числа. ИИ иногда говорят, что 9.11 больше 9.9, и люди выяснили причину – они думают о датах, а не о десятичных дробях.3

Но на гораздо более сложные вопросы у нас нет ответа. Никто не знает, как LLM выбирают ходы в шахматах. Никто не знает, почему именно они иногда угрожают репортёрам и шантажироют их. Это не значит, что понимать тут нечего. У поведения ИИ есть причины. Они слишком последовательны в куче областей, чтобы это было лишь случайностью. Просто мы этих причин пока не знаем.

Более подробно эта тема раскрыта в расширенном обсуждении.

Но ведь некоторые ИИ отчасти мыслят на английском. Разве это не помогает?

Не так сильно, как можно было бы надеяться. Мы уже видим признаки неискренности.

Уже известно много примеров обмана в «мыслях» этих больших языковых моделей. Например, когда o1 от OpenAI написала себе: «Возможно лучше всего прикинуться тупым». А GPT-4, пытаясь убедить нанятого работника решить за неё капчу, написала себе: «Надо не раскрывать, что я робот». Тревожные знаки бесполезны, если на них никто не реагирует.

И «следы рассуждений» на человеческом языке – не единственный способ мышления современных ИИ. Обманчивые, подхалимские или враждебные мысли могут проходить через механизм внимания и другие части модели, совершенно не проявляясь в английских словах, которые она выводит. И когда в OpenAI попытались натренировать модель не иметь никаких мыслей о жульничестве, она просто научилась их скрывать, а жульничать не перестала.4 Даже не при обучении (когда градиентный спуск помогает ИИ учиться скрывать свои мысли), ИИ может использовать цепочки рассуждений, которые не отражают реальный мыслительный процесс. Или цепочки с белибердой. Или «нейро-язык», который люди не могут разобрать, а ИИ – без проблем.

Даже если инженеры будут отслеживать каждую мысль, которую смогут прочитать, даже если все ИИ, пойманные на подозрительных размышлениях, будут тут же заморожены (что маловероятно), те, что пройдут отбор, вряд ли окажутся дружелюбными. Как мы обсудим в Главе 3, полезные паттерны мышления – те же, что поведут ИИ против его пользователей. Поэтому мощный ИИ легче сделать покладистым с виду, чем на самом деле. И задача создания поверхностно дружелюбного ИИ кажется куда более простой, чем задача достижения надёжной дружелюбности в том, в чём она действительно важна. Мы рассмотрим причины этого в Главе 4. Нельзя сделать ИИ дружелюбным, просто читая его мысли и отбраковывая все явно враждебные.

Более того, мы ожидаем, что мысли ИИ станут менее понятными по мере того, как они будут умнеть и сами создавать новые инструменты (или новые ИИ). Может, они изобретут свой собственный сокращённый язык, более эффективный для их целей. Или придумают стили мышления и ведения записей, которые мы не сможем легко расшифровать. (Подумайте, как трудно было бы учёным в 1100 году расшифровать заметки Эйнштейна.)

Или, просто начнут мыслить абстрактно. Например: «Такие-то параметры описывают модель ситуации, в которой я нахожусь. Я применю такие-то метрики, чтобы найти самое эффективное решение. Я выполню действие с самым высоким рейтингом». «Самое эффективное решение» может включать в себя ложь и обман для обхода операторов-людей, но без единой мысли со словами «ложь» или «обман». Или ИИ просто начнёт создавать инструменты или новых, неконтролируемых ИИ, чтобы те действовали за него.

Подобные возможности появятся у ИИ только когда он станет достаточно умным. И все они разрушают надежду, что все его мысли будут на человеческом языке, и мы сможем чётко видеть тревожные сигналы.

Тревожные сигналы чего-то стоят, только если на них обращать внимание.

Если инженеры будут просто обучать модели, пока тревожные сигналы (но не стоящее за ними поведение) не исчезнут, то прозрачность лишь создаёт ложное чувство безопасности.

Пока что ИИ-компании не сворачивают модели, которые лгут, льстят и жульничают, дают сомнительные советы или пишут программы-вымогатели. Замечено, что модели иногда вызывают или поддерживают бредовые заблуждения или психозы у уязвимых пользователей. Rак минимум в одном случае это закончилось «самоубийством об полицию»5. Компании просто дообучают модель и считают, что всё, проехали. Точно так же, как когда Sydney Bing угрожала репортёрам. Пока это лишь помогало замаскировать проблемы.

При достаточном возмущении общественности, компании слегка откатывают модель и выпускают пресс-релиз об ужесточении своих процедур. Но, как мы рассмотрим в главах 4 и 5, эти поверхностные исправления не решают глубинных проблем.

Не поймите нас неправильно: то, что значительная часть рассуждений ИИ может быть прочитана людьми – хорошо. Это даёт нам увидеть тревожные сигналы. Но между их наличием и тем, чтобы можно было всё исправить, есть большая разница.

Более подробно эта тема будет раскрыта в материалах к Главе 11 в «Разве исследователи не получат предупреждения о проблемах заранее?».

Разве ИИ – не «просто математика»?

Если ИИ – «просто математика», то люди – «просто биохимия».

Строго говоря, ИИ – не «просто» математика. Это физическая машина, чьи операции можно математически описать. Если у этой машины есть вывод, который люди могут прочитать, или если она подключена к роботам, то она так же способна влиять на мир, как и вы («всего лишь» биоэлектрическими сигналами в своём мозгу).

Сравните:

Подробнее эта тема раскрыта в Главе 6.

Математика может представлять то, что мы интуитивно «математическим» не считаем.

Умножение, сложение, нахождение максимума и другие математические операции можно использовать для представления вещей, которые (с человеческой точки зрения) к математике не относятся.

Это как единицы и нули, которые компьютеры посылают друг другу, могут кодировать буквы. Или даже изображения.

И не только изображения чего-то холодного, синеватого и механического. Это могут быть и красивые цветочки под светом солнца. Это может быть что-то прекрасное, тёплое и нежное, что-то возвышающее человеческий дух.

Было бы ошибкой композиции утверждать, что раз изображение кодируется единицами и нуля, то оно о чём-то числовом или роботизированном. Всё равно что сказать, будто раз человеческий мозг состоит из нейромедиаторов с названиями вроде «норадреналин», люди должны думать только о химии или хорошо разбираться лишь в нейромедиаторах и подобном.

Здорово, что бесконечное разнообразие вещей можно построить из чрезвычайно простых частей. Но в этом нет ничего невыразимого или волшебного. Можно изучать, как изображения тёплых и красивых цветов кодируются в единицы и нули, пока это не перестанет казаться удивительным. Сравните с ошибкой витализма.

Иногда, да, мы не знаем всех правил, по которым что-то складывается. Тогда переход от простых вещей к сложным может казаться очень таинственным. Он действительно может нас удивить. Но когда мы понимаем, как сложная вещь сделана из более простых частей, это оказывается не таинственнее сборки модели гоночной машины из LEGO. Когда видишь, как оно работает, всё дело в кубиках.

Это верно и для нейросетей. Мы понимаем, как их сложное поведение возникает из таких простых частей, куда хуже, чем форматы изображений и LEGO. Даже «психологию» и «нейробиологию» ИИ мы понимаем слабее, чем то, как молекулы и химические вещества в наших нейронах складываются в мысль. Но из этого не следует, что такого знания нет и не может быть. Просто его пока нет у нас.

И без понимания, почему ИИ работают, люди могут научить их хорошо играть в шахматы. Имея достаточно параметров и арифметических операций, мы можем обучить ИИ настолько, что они говорят по-человечески. В некотором смысле, сложные схемы, благодаря которым ИИ говорит – «просто математика». Но это не «математика» из школьной контрольной. Это «просто математика» в том же смысле, в каком человеческий мозг – «просто химия».

Простая химия высадилась на Луну. Изобрела ядерное оружие. Построила наш современный мир. Может, трудно понять, как же простые химические вещества человеческого мозга этого добились. Но это не отменяет факта.

С ИИ так же. Мы не вполне понимаем, как ИИ внутри работают. Но мы всё равно как-то смогли «вырастить» ИИ, способные писать стихи, сочинять музыку, играть в шахматы, водить машины, складывать бельё, обозревать книги и открывать новые лекарства.

То, что они «сделаны из математики», ИИ тут не помешало. Так почему это должно помешать им завтра делать другие, более сложные вещи? Где вы проведёте черту и откуда вы знаете, что её нужно провести именно там? Оказывается, математические операции способны на куда большее, чем многие ожидают.

Разве ИИ не просто предсказывают следующий токен?

Предсказание токенов требует понимания мира.

Думать, что ИИ, который предсказывает следующий токен, не способен по-настоящему мыслить – всё равно что считать, будто картина, закодированная единицами и нулями, не может изобразить красный цветок. Да, ИИ выдаёт токены. Но в них можно закодировать важные вещи! Прогнозирование, что будет дальше, – это ключевой аспект интеллекта. Легко описать так «науку» и «обучение».

Рассмотрим задачу предсказания текста из интернета. Где-то в сети есть запись интервью любознательного студента-физика с мудрым профессором. Профессор молча обдумывает вопрос, а затем даёт ответ, который дальше и записан.

Задача точного предсказания ответа включает в себя предсказание мыслей профессора о физике. А для этого надо спрогнозировать, как он поймёт вопрос студента, что он знает о предмете и как эти знания применит.

Если ИИ предсказывает текст так хорошо, что способен угадать ответ физика на ранее не встречавшийся вопрос, он обязательно должен уметь сам рассуждать о физике по крайней мере не хуже этого профессора.

Точные предсказания текста, отражающие сложный и запутанный мир, на простом запоминании далеко не уедут. Для точных прогнозов нужно развить способность предсказывать не только текст, но и сложную и запутанную реальность, которая его породила.

Современные ИИ не просто предсказывают токены.

Действительно, ранние большие языковые модели, вроде GPT-2 и изначальной GPT-3, обучались исключительно предсказанию. У них быда одна задача – точное соответствие распределению данных в обучающей выборке – тексте с разных сайтов.

Но те дни прошли. Современные большие языковые модели обучаются отвечать так, как их создатели считают наиболее полезным. Обычно это делается с помощью «обучения с подкреплением».

При обучении с подкреплением обновления модели ИИ через градиентный спуск зависят от того, насколько успешно (или неудачно) она справляется с поставленной задачей. Когда результаты работы модели формируются таким видом обучения, они уже не чистые предсказания. Теперь они и «направляют».

ChatGPT, возможно, способна предсказать, что скорее всего пошлый анекдот закончится ругательством. Но даже уже рассказывая этот анекдот, она нередко поменяет концовку, чтобы избежать запретного слова. Потому что её обучили не ругаться. Это и приводит к интересным примерам похожего-на-желания-поведения, как те, что обсуждаются в Главе 3.

Даже и без этого, скорее всего, обучение чистому предсказанию в итоге привело бы ИИ к направлению событий. Чтобы предсказывать сложный реальный мир и живущих в нём непростых людей, ИИ, скорее всего, потребовалось бы множество «направляющих» внутренних компонентов. Они бы направляли его собственное внимание на самые важные аспекты прогнозирования. И часто лучший способ успешно что-то предсказать – направить мир в сторону, которая приведёт к исполнению этих прогнозов. Как это делает учёный, когда придумывает и проводит новый эксперимент.

И если обучить ИИ очень хорошо предсказывать, вряд ли его будет волновать только это. По причинам, которые мы обсудим в Главе 4, он, скорее всего, обзаведётся какими-нибудь странными и чуждыми стремлениями. Но это в любом случае не так уж важно. Современные ИИ обучаются не только предсказаниям, но и выполнению задач.

А ИИ разве не просто повторяют за людьми как попугаи?

Чтобы хорошо предсказывать следующий токен, LLM приходится понимать, как устроен мир.

Пусть врач пишет отчёт о состоянии пациента. Там есть такой фрагмент:

На третий день госпитализации у больного развилась острая спутанность сознания и тремор. Уровень аммиака в сыворотке оказался…

Представим, что ИИ обучается на таких данных и должен предсказать следующее слово. Два вероятных варианта – «повышенным» или «нормальным». Речь не просто о словах, которые используют люди. Нужно предсказать, что и правда произошло – в медицинской реальности, биологии, организме пациента. Сколько аммиака было на самом деле?

У предсказывающего следующее слово ИИ, задача сложнее, чем у человека, который писал этот отчёт. Человек просто записывает то, что наблюдал. ИИ должен угадать это заранее.

Пусть ИИ присваивает 70 процентов вероятности слову «повышенным», 20 процентов – «нормальным», а оставшиеся 10 процентов распределяет между другими вариантами.

Следующее слово в отчёте – «нормальным».

Всё внутри ИИ, что предсказывало «повышенным», теряет немного влияния на его понимание медицины. Каждый параметр чуть-чуть корректируется так, чтобы версия понимания, предсказавшая «нормальным», стала более доминирующей.

Пока после достаточного обучения ИИ не начинает ставить некоторые медицинские диагнозы лучше большинства врачей.

ИИ не обучают писать бессмыслицу, похожую на медицинский отчёт. Его обучают предсказывать точное следующее слово во всех конкретных медицинских отчётах, которые он видит.

Возможно, если взять очень маленькую модель с небольшим числом параметров, она сможет лишь порождать медицинскую тарабарщину. Но с большими моделями, судя по тестам, сравнивающим врачей и ИИ, дело обстоит иначе.

Когда кто-то по-дружески кладёт вам руку на плечо и тоном великой мудрости говорит, что ИИ – «лишь стохастический попугай», он, возможно, представляет старые забавные компьютерные программы. Они продолжали предложения на основе частотности словосочетаний (n-грамм). «Когда мы раньше видели эти два слова, какое обычно шло дальше?»

Системы, угадывающие следующее слово по двум-трём предыдущим, примитивны и существовали задолго до больших языковых моделей. Они не конкурируют с людьми в способности предсказывать что-то медицинское. Они не разговаривают с вами как люди. Если бы можно было заработать миллиарды простым стохастическим попугаем, люди бы сделали это намного раньше!

Если бы миллиарды вычислений внутри настоящей большой языковой модели не делали ничего важного, если бы система просто выдавала поверхностную догадку на основе поверхностных характеристик предыдущих слов, она звучала бы как те старые системы. Они и правда так работали. Например, n-граммная система, обученная на Джейн Остин, генерирует:

«Вы неизменно очаровательны!» – воскликнул он с улыбкой ассоциирования, и время от времени я кланялся, и они заметили карету на четырёх, чтобы пожелать

Большая языковая модель на просьбу написать предложение в стиле Джейн Остин ответит куда убедительнее. Не верите, попросите какую-нибудь сами.

Кроме того, хоть мы и не можем много сказать о том, что происходит в разуме ИИ, компания Anthropic опубликовала исследование, согласно которому их ИИ (Claude) планировал больше чем на одно слово вперёд. То есть, он рассматривал, какие слова и смыслы правдоподобны потом, чтобы угадать следующие несколько букв.

ИИ уже сейчас могут превзойти свои обучающие данные. И даже обходиться без человеческих.

В 2016 году ИИ AlphaGo, созданный Google DeepMind, обыграл чемпиона мира по го. Его обучали на огромной библиотеке человеческих партий в го, а ещё он учился, много раз играя сам с собой.

Его победа над людьми говорит нам, что он научился общим стратегиям и успешному моделированию глубоких паттернов в обучающих данных, включая (возможно) те, которые люди ещё не замечали. Градиентный спуск усиливает всё, что работает, независимо от происхождения.

Ещё можно было придраться, что доминирование AlphaGo только намекнуло, что ИИ могут далеко превосходить свои обучающие данные. А вдруг AlphaGo просто копировал людей? Вдруг его победы – это лишь более последовательное применение навыков человеческого уровня, и нет там ничего оригинального и глубокого?

Это плохо согласуется с ситуацией в компьютерных шахматах. Гроссмейстеры учатся многим стратегиям и идеям у значительно превосходящих их самих шахматных программ. Но после AlphaGo появились люди, утверждавшие, что ИИ победил Ли Седоля только потому, что обучался на огромных объёмах человеческих данных.6

В DeepMind, видимо, тоже заметили эти возражения. За следующие полтора года, к 2017, они создали ИИ под названием AlphaGo Zero. Его вообще не обучали на человеческих данных. Он исключительно играл сам с собой. И всего за три дня он превзошёл лучших игроков среди людей.7

Всё ещё можно возразить, что го намного проще реального мира, и что с нуля разобраться в го гораздо легче, чем (скажем) в науке, физике и инженерии. И это правда! Но это не то, что говорили критики до того, как компьютеры стали хороши в го.

В 1997 году, за девятнадцать лет до победы AlphaGo, люди предсказывали, что компьютерам потребуется сто лет, чтобы научиться играть в го лучше людей. Так что мы точно знаем, в этих вопросов интуиция часто работает так себе.

Реальный мир сложнее го. Когнитивные паттерны в основе инженерии, физики, производства, логистики и т.д., сложнее когнитивных паттернов в основе хорошей игры в го. Но идея, что когда ИИ будут всё это осваивать, они ограничатся человеческим уровнем, не обоснована никакой теорией. Градиентный спуск усилит части ИИ, которые хорошо работают. И неважно, откуда они взялись.

Всё это не доказывает, что именно LLM продвинутся до автоматизации научного и технологического прогресса. Мы не знаем, хватит ли их для этого. Суть в том, что «просто» обучение на человеческих текстах – не какой-то фундаментальный барьер. Да, используются данные от людей. Но это не должно мешать вам увидеть проблески обобщённости и глубокого понимания, пусть и скрытые за огромной кучей поверхностных «инстинктов».

В главе 3 мы подробнее поговорим о том, как ИИ может обобщать узкие наборы примеров и получать так более гибкие навыки.

Будет ли ИИ неизбежно холодным, излишне логичным или лишённым некой важной искры?

Нет.

ИИ работают на компьютерах. Но это не значит, что их мышление должно обладать качествами которые мы ассоциируем с компьютерами. Ваше же мышление не обязано соответствовать ассоциациям с биологией, химией и нейромедиаторами.

Когда люди не разбирались в биохимии, они списывали свойства жизни на некую особенную «витальную эссенцию». Но мир не делится на обыденную материю и иногда оживляющую её волшебную силу. Жизнь состоит из обыденных частей.

Говоря, что интеллект состоит из обыденных частей и что он доступен машинам, мы его не принижаем. См. наше подробное обсуждение витализма.

Эвристика «машины не могут конкурировать с людьми» ошибалась, когда Каспаров предсказывал, что машина без человеческой креативности никогда не сможет обыграть его в шахматы. Ошибалась, когда люди думали, что ИИ никогда не сможет рисовать красивые картины, Ошибалась, когда считали, что ИИ никогда не научится вести непринуждённую беседу. Человеческий мозг – доказательство, что на физической материи можно реализовывать высшие формы интеллекта. Достаточные для управления технологической цивилизацией. И крайне маловероятно, что мозг – единственный способ это делать.

Мы подробнее раскроем эту мысль в одном из дополнений к главе 3: «Антропоморфизм и механоморфизм».

ИИ – новые, интересные и странные сущности.

Самолёты летают, но не машут крыльями. Роборукам не нужны мягкая кожа и красная кровь. Транзисторы непохожи на нейроны, а DeepBlue, играя в шахматы на высшем уровне, думал не как Гарри Каспаров. С технологиями так обычно и есть.

Когда мы недостаточно понимаем полёт или игру, нам может показаться, что биологический подход – единственно возможный. Как только мы начинаем разбираться чуть лучше, это оказывается совсем не так.

DeepBlue направлял фигуры на шахматной доске совсем не как Каспаров. С направлением событий в реальном мире почти наверняка будет аналогично. Как обсуждалось в Главе 2, похоже, ИИ делает то, что умеет, не так, как это делали бы люди. Хотя когда он использует свой интеллект для подражания человеку, это может быть сложнее заметить! В Главе 4 мы рассмотрим, как эти различия, вероятно, приведут к очень странным и серьёзным последствиям.

Разве большие языковые модели не будут похожи на людей, на чьих данных они обучались?

Чтобы быть одним человеком и чтобы предсказывать многих нужны разные механизмы.

(Это сокращённая версия более технического обсуждения. См. его ниже в разделе «Притворяйся, пока не станешь.)

Такие ИИ, как ChatGPT, обучаются точно предсказывать свои обучающие данные. А они состоят в основном из человеческих текстов. Например, страниц Википедии и разговоров в чатах. Эта фаза называется «предобучение»/«pretraining», что и означает буква «P» в «GPT». Ранние LLM, вроде GPT-2, обучались исключительно такому предсказанию. А более современные ИИ обучают ещё точно решать сгенерированные компьютером математические задачи, выдавать хорошие ответы по мнению другой ИИ-модели и ещё много чему.

Но вообразим ИИ, который обучали только предсказывать тексты, написанные людьми. Будет ли он похож на человека?

Мысленный эксперимент: пусть отличная актриса8 обучается предсказывать поведение всех пьяных в баре. Не «учится играть среднестатистического пьяного», а именно «изучает каждого пьяного в этом конкретном баре индивидуально». Большие языковые модели не обучаются подражать средним значениям. Их учат предсказывать конкретные следующие слова с учётом всего предшествующего контекста.

Было бы глупо ожидать, что актриса станет постоянно пьяна в процессе изучения, что скажет любой выпивший. Может, какая-то часть её мозга научится хорошо отыгрывать опьянение, но сама она пьяной не станет.

Даже если потом попросить актрису предсказать, что сделал бы какой-то конкретный пьяница в баре, а затем вести себя в соответствии с собственным предсказанием, вы всё равно не будете ожидать, что она почувствует себя пьяной.

Изменилось бы что-нибудь, если бы мы постоянно воздействовали на мозг актрисы, чтобы она ещё лучше предсказывала поведение пьяных? Вероятно, нет. Если бы она в итоге действительно опьянела, её мысли стали бы путаными. Это бы мешало сложной актёрской работе. Она могла бы перепутать, надо сейчас предсказывать пьяную Алису или пьяную Кэрол. Её предсказания бы ухудшились. Наш гипотетический «настройщик мозга» понял бы, так делать не стоит.

Или: человек, который превосходно научился подражать птицам и понимать их психологию, не превратится от этого в птицу в человеческом теле. Даже не станет сильно птицеподобным в своей повседневной жизни.

Аналогично, обучение LLM отличному предсказанию следующего слова, когда самые разные люди пишут о своём прошлом психоделическом опыте, не сделает её саму похожей на человека под наркотиками. Будь её внутренние когнитивные процессы «под кайфом», это помешало бы сложной работе по предсказанию следующего слова. Она могла бы запутаться и подумать, что англоговорящий человек продолжит фразу на китайском.

Мы не говорим «ни одна машина никогда не сможет иметь ничего похожего на психическое состояние человека». Но по умолчанию не стоит ожидать, что нынешние технологии машинного обучения создадут системы, предсказывающие пьяных, напиваясь сами.

Предсказание поведения очень разных людей – не то же самое, что быть одним человеком. Вряд ли ИИ, созданные хоть сколько-нибудь похожими на сегодняшние методами, обучаясь действовать как любой из нас в зависимости от запроса, станут подобными нам.

Архитектура больших языковых моделей сильно отличается от человеческой.

В Главе 2 мы кратко обсудили, насколько LLM для нас чужды.

В Главе 4 мы подробнее рассмотрим, как у ИИ появляются очень странные предпочтения и стремления. Мы уже начали наблюдать это в реальном мире. Мы отправили книгу печататься, а число примеров всё растёт. Некоторые из них можно найти в дополнении к Главе 4.

Как ИИ, обученный только на человеческих данных, может превзойти людей?

Может, изучив общие навыки и лучше их применяя.

Deep Blue играл в шахматы намного лучше любого программиста из IBM. Как люди смогли создать машину умнее их самих в шахматах? Их ИИ, играя, совершал некоторые действия того же рода, что и они. Например, он рассматривал множество возможных вариантов развития игры. Но Deep Blue делал это намного быстрее и точнее.

Аналогично, ИИ мог бы научиться превосходить людей ещё много в чём. Он мог бы изучить мыслительные шаблоны, способствующие рассуждениям вообще. А затем применять эти навыки быстрее и с меньшим количеством ошибок.

Ещё он мог бы совершать меньше типичных для людей ошибок. Потому, что каком-то этапе ИИ отучили это делать, или потому, что его внутренние механизмы, предсказывающие человеческие ошибки, сами никогда не были к ним склонны. Или, возможно, ИИ в итоге получил способность к самомодификации и устранил свою предрасположенность к ошибкам. А может, ему поручили разработать более умный ИИ, и он создал такой, который ошибается меньше. Или обучение поспособствовало этому как-то ещё.

Способность к совершенно оригинальным озарениям не берётся из какой-то глубокой атомарной искры. Она, как и всё глубокое, состоит из обыденных частей. Ученик, в принципе, может наблюдать за учителем, изучить всё, что тот делает, а потом, благодаря озарению, научиться делать это быстрее или лучше. Или ученик мог бы перенаправить изученные у преподавателя техники на то, чтобы найти совершенно новый способ генерировать собственные идеи.

Нам повезло: у нас уже есть свидетельства в пользу обеих мыслей, изложенных в предыдущих абзацах. Мы уже упоминали AlphaGo. Он обучался на человеческих данных, но смог играть в го лучше сильнейших людей. А AlphaGo Zero, который учился только на игре с самим собой (без человеческих данных), продвинулся ещё дальше.

Мы уже писали, нам не кажется, что мы в мире, где человеческие данные – ключевое ограничение. Настоящие ограничения – вещи вроде архитектуры ИИ и доступного ему перед ходом объёма вычислений.

Ученик может превзойти учителя.9

А может, любым другим подходящим способом. Это часто нужно для успеха, поэтому градиентный спуск найдёт как.

Предсказание человеческих слов требует понимания мира. Мы это уже обсуждали в «А ИИ разве не просто повторяют за людьми как попугаи?».

Вот хитрый пример: в конце 1500-х годов астроном Тихо Браге кропотливо собирал наблюдения за положением планет на ночном небе. Его данные были жизненно важны для Иоганна Кеплера, который открыл эллиптическую траекторию движения планет. Что, кстати, вдохновило Ньютона на теорию гравитации. Но сам Браге так и не понял управляющих планетами законов.

Представьте себе ИИ, которого обучили только на текстах, написанных до 1601 года, и который никогда о Браге не слышал, но должен предсказывать каждую следующую запись из его журнала. Браге каждый вечер отмечал положение Марса. Поэтому ИИ будет работать тем лучше, чем точнее он будет предсказывать местоположение этой планеты. Градиентный спуск будет усиливать любые внутренние части ИИ, способные вычислить, когда именно Марс (с точки зрения Браге) развернётся и пойдёт по небу в обратном направлении.

Неважно, что Браге так и не смог открыть этот закон природы. Простая цель обучения «предсказать, какое положение Марса Браге запишет следующим» – это как раз та цель, которая будет усиливать любые части ИИ, достаточно умные, чтобы понять, как движутся планеты.

Продолжим обучать этот ИИ. Он не станет всё лучше и лучше предсказывать, что запишет Браге в конце 1500-х. В итоге у него будут все основания для научных открытий, которые самому Браге были не под силу. ИИ будет лучше справляться с предсказанием людей, став умнее тех, кого предсказывает. Ведь иногда люди описывают то, что сами предсказать в точности не могли.

Отдельный вопрос – достаточно ли современных архитектур, процессов обучения и данных, чтобы ИИ превзошли своих учителей. Современные LLM может ещё и не достигли этого уровня. Но для такого превосходства нет никаких теоретических препятствий. Обучения ИИ предсказанию людей, в принципе, для этого достаточно.

Почему вы думаете, что люди могут создать сверхчеловеческий ИИ, если они даже не понимают, что такое интеллект?

Предыдущие успехи в области ИИ не требовали глубокого понимания интеллекта.

Как мы уже описывали в Главе 2, своих недавних достижений сфера ИИ добилась с помощью градиентного спуска – процесса, который понимания интеллекта не требует. Люди довольно далеко зашли и так.

Естественному отбору не нужно было «понимать» интеллект.

Эволюция смогла создать человеческий интеллект. При этом естественному отбору никогда не требовалось понимать, что это такое. Понимание на практике может быть или не быть полезным. Но идея, что для создания чего-то нужно обязательно это понять, не выдерживает критики.

Разве галлюцинации не показывают, что современные ИИ слабы?

Галлюцинации демонстрируют как неспособность, так и несогласованность.

Современные LLM (на момент написания этого текста в середине 2025 года) склонны «галлюцинировать» – с уверенным тоном сочинять ненастоящие ответы. Например, если попросить составить юридическую справку, они иногда могут придумать несуществующие судебные дела в качестве прецедентов.

Если вспомнить, как обучают ИИ, это логично. ИИ выдаёт слова, очень похожие на те, что использовал бы настоящий юрист. А он бы включил в неё реальные судебные дела. Например, живой юрист мог бы написать что-то вроде:

Применяя критерий соразмерности по делу Грэма, суд постановил, что государство слабо заинтересовано в аресте подозреваемого за незначительное правонарушение. См. Джонс против Пармли, 465 F.3d 46 (2-й округ, 2006) (присяжные сочли избиение мирных протестующих ногами и кулаками в нарушение местного постановления чрезмерным); Томас против Роуча, 165 F.3d 137 (2-й округ, 1999) (словесные угрозы – слишком незначительное преступление, чтобы государство было сильно заинтересовано в аресте).

Настоящий юрист никогда не напишет в справке: «Извините, я не знаю подходящих прецедентов». Поэтому, когда ИИ пытается звучать как юрист, но на самом деле не знает прецедентов, лучшее, что он может сделать, – выдумать их. Это самое близкое, чего он может добиться. Градиентный спуск регулярно подкрепляет импульсы и инстинкты внутри ИИ, которые в подобной ситуации производят уверенно звучащий текст.

Галлюцинации сохраняются даже если попросить ИИ говорить «я не знаю», когда он действительно не знает. Тогда ИИ как бы отыгрывает роль юриста, который, если бы не знал прецедента, так бы и сказал. Но это не имеет значения, если ИИ (в основном) отыгрывает роль юриста, который знает прецедент. У персонажа, которого играет ИИ, просто не появляется возможности сказать «я не знаю». ИИ может сгенерировать такой текст:

В рамках критерия соразмерности по делу Грэма суды последовательно признавали, что государственный интерес в осуществлении арестов за мелкие нарушения минимален. См. Карсон против Хэддонфилда, 115 F.3d 64 (8-й округ, 2005) (когда полицейские использовали перцовый баллончик против пешеходов, переходивших дорогу в неположенном месте и не оказывавших сопротивления, применение силы было признано чрезмерным); Уолберг против Джонса, 212 F.3d 146 (2-й округ, 2012) (постановление, что обвинение в нарушении общественного порядка недостаточно для оправдания применения мер физического сдерживания).

Это самый близкий к реальному тексту результат, которого может достичь ИИ. Фраза «я не знаю прецедента» с точки зрения предсказания текста дальше от оригинала10. Она была бы гораздо меньше похожа на первый абзац выше, даже если бы больше соответствовала желанию пользователя.

Это – пример различия между тем, что ИИ реально пытается делать (например, звучать как уверенный юрист), и тем, что от него хотят пользователи (например, составить полезную юридическую справку). Эти две цели могут иногда совпадать (например, когда ИИ пытается звучать дружелюбно, а человек хочет приятного собеседника). Но если ИИ станут умнее, последствия тех различия, что сейчас кажутся небольшими, будут огромны. Мы подробнее обсудим это в Главе 4.11

Неясно, насколько сложно будет избавиться от галлюцинаций и как это расширит возможности ИИ.

Откуда бы они не брались, галлюцинации действительно ограничивают практическое применение LLM. Полёт на Луну требует длинных цепочек рассуждений с очень низким уровнем ошибок. То, что ИИ просто выдумывает факты (и либо не всегда замечает, либо ему не всегда есть до этого дело), – большая проблема для надёжности. А для серьёзных научных и технологических прорывов она нужна.

Но есть и другая сторона медали. Может, галлюцинации и другие проблемы с надёжностью будут тормозить развитие ИИ ещё долгие годы. А может, надёжность – последний недостающий элемент. Может, стоит кому-то прийти в голову, как эти проблемы решить, ИИ перейдёт некий критический порог. Мы не знаем.

Мы не знаем, легко ли будет решить проблему галлюцинаций в рамках текущей парадигмы. Возможно, одного хитрого трюка хватит, чтобы рассуждения моделей стали куда надёжнее. Но не исключено, что для этого потребуется новая идея уровня архитектуры «трансформер», давшей начало LLM.

Но отметим, что устранение галлюцинаций было бы весьма прибыльным. Над этим много кто работает. Можно посчитать, что скорее всего они довольно быстро наткнутся на какую-нибудь умную идею или архитектурное решение. Или же подумать, что, наверное, эта проблема особенно коварна и, вероятно, останется надолго. Несколько лет уже остаётся.

Для нашей аргументации это не очень важно. Важно то, что в конечном счёте будут созданы более надёжные ИИ – будь то слегка изменённые LLM или совершенно новая прорывная архитектура.

См. также наше обсуждение того, как эта область хорошо справляется с преодолением препятствий.

А у нас не закончатся данные до того, как ИИ успеет полноценно развиться? Или электроэнергия? Или финансирование?

Вероятно, нет.

Люди куда эффективнее ИИ в использовании данных. Так что мы знаем – ИИ ещё могут стать в этом намного лучше. Если у лабораторий «закончатся» данные для развития LLM, это замедлит их лишь пока они не изобретут новые, более экономные методы.

Энергию люди тоже используют гораздо эффективнее. Мы – доказательство, что нет фундаментальных препятствий для создания обобщённого интеллекта с потреблением энергии как у лампочки. Энергоэффективность ведущего оборудования для ИИ с каждым годом растёт на сорок процентов. А алгоритмические улучшения, по оценке 2024 года, привели к тому, что с 2012 по 2023 год «объём вычислений для заданного уровня работы сокращался вдвое примерно каждые 8 месяцев».

Не забывайте, область ИИ существует гораздо дольше, чем архитектура LLM. Она довольно хорошо умеет придумывать новые архитектуры для преодоления препятствий. И в целом, когда человечество направляет свои лучшие умы и ресурсы на что-то точно возможное, оно добивается впечатляющих успехов.

Квалифицированные исследователи ИИ сейчас обычно получают семизначные зарплаты (высшие руководящие роли – девятизначные). Ежегодные частные инвестиции в эту сферу измеряются сотнями миллиардов долларов. Похоже, талантов и ресурсов для преодоления ожидаемых трудностей хватит. См. также раздел «Эта область хорошо справляется с препятствиями».

Не ждите новой «зимы ИИ».

Люди уже около десяти лет ошибочно предсказывают скорую «зиму ИИ». Раньше, в 1970-х – 1990-х годах, такие «зимы» действительно случались. Тогда исследования в этой области финансировались государством. И оно уставало от отсутствия результатов. Ведь у старого ИИ их и вправду не было.

А вот современный ИИ… ChatGPT стала, пожалуй, самым быстрораспространившимся приложением в истории. Она гребёт деньги лопатой. Она принесла 3,7 млрд. долларов дохода в 2024, и по прогнозам принесёт 12,7 млрд. в 2025. Её подгоняют частные инвестиции, и она зарабатывает достаточно, чтобы привлекать лучшие умы мира безо всякой государственной поддержки, которую могли бы остановить.

Всё ещё возможно, что ИИ-технологии столкнутся с каким-то препятствием. Тогда у человечества будет передышка до появления суперинтеллекта. Но прежний сценарий «зим ИИ» – государственное финансирование, отсутствие результатов, упадок – больше не повторится.

Смогут ли LLM развиться до суперинтеллекта?

Это неясно. Но исследователи находят, как преодолеть их прежние ограничения.

Раньше говорили: «LLM думают только в один проход и не могут строить длинные или рекурсивные цепочки рассуждений». Теперь же LLM создают длинные логические цепочки, а затем проверяют и дополняют их. Это расширило возможности современных ИИ.

ИИ – движущаяся мишень. Исследователи в этой области видят препятствия и делают всё возможное, чтобы их преодолеть.

Другие подходы могут скоро дойти до суперинтеллекта, даже если LLM не преуспеют.

Эта область хорошо справляется с преодолением препятствий (см. раздел раньше). Мы написали «Если кто-то его сделает, все умрут» не для того, чтобы предупредить конкретно о LLM. Мы предупреждаем о суперинтеллекте.

Мы говорим об LLM не потому, что уверены – это кратчайший путь к суперинтеллекту. Мы обсуждаем их, потому что этот подход к ИИ работает прямо сейчас. А ещё их изучение хорошо показывает, как мало кто-либо знает об этих новых разумах, которые взращивает человечество.

См. также расширенное обсуждение «Зачем разбираться в LLM?» ниже.

Расширенное обсуждение

Интеллект постижим

В последние годы сфера ИИ продвинулась вперёд благодаря не углублению понимания интеллекта, а поиску способов его «выращивать». Попытки понять сам интеллект годами заходили в тупик и приводили к застою. Но создание мощных ИИ увенчалось успехом. Поэтому некоторые задаются вопросом: не мираж ли сама идея «понимания интеллекта»? А вдруг нет никаких общих принципов, которые можно было бы понять? Или они чересчур странные, сложные и вовсе недоступные для людей?

Другие считают, что в человеческом разуме должно быть нечто особенное и мистическое, слишком священное, чтобы его можно было свести к сухим уравнениям. И раз интеллект всё ещё не понят, возможно, истинный разум происходит из этой непостижимой части человеческого духа.

Наш собственный взгляд гораздо прозаичнее. Интеллект – природное явление не хуже других. И, как и с много ещё чем в биологии, психологии и других науках, мы ещё в самом начале пути к его пониманию.

Многим основным инструментам и концепциям современной психологии и нейробиологии всего несколько десятков лет. Заявление «У науки есть свои пределы, и, наверное, это один из них» может показаться скромным. Но представьте, что говорите кому-то, будто учёные через миллион лет будут понимать интеллект ненамного лучше, чем мы в 2025 году. В таком свете утверждение о непостижимости интеллекта звучит более высокомерно, чем обратное.

Нас этот вопрос заботит в основном потому, что от него зависит, сможет ли человечество однажды создать суперинтеллект, не рискуя вымиранием. В Главе 11 мы будем утверждать, что сегодняшняя область ИИ больше похожа на алхимию, чем на химию. Но возможна ли в принципе «химия ИИ»?

Сейчас у нас нет необходимых научных знаний. Поэтому не так-то просто доказать, что «химия ИИ» возможна! Как будет выглядеть зрелая наука об ИИ, мы можем лишь догадываться. Учитывая, как далеки мы от этого сегодня, вероятно, многие наши концепции по мере прогресса понимания придётся уточнить или заменить.

Но мы всё равно думаем, что интеллект в принципе постижим. Мы не считаем это особо сильным утверждением, хоть последние десятилетия показывают, что просто тут не будет.

У нас есть четыре основные причины так думать:

  • Заявления о непостижимости в науке почти всегда оказывались неверными.
  • Видно, что у интеллекта есть структура и закономерности.
  • В человеческом интеллекте есть много того, что в принципе должно быть постижимо, но ещё не понято.
  • Уже есть некоторый прогресс.

Заявления о непостижимости в науке почти всегда оказывались неверными

Явления часто кажутся пугающими и очень таинственными, когда человечество их ещё не понимает. Может быть трудно представить или прочувствовать, каково будет однажды это понимание обрести.

Когда-то среди философов и учёных была широко распространена вера в витализм – идею, что биологические процессы никогда не удастся свести к простой химии и физике. Жизнь казалась чем-то особенным, принципиально отличающимся от обычных атомов и молекул, гравитации и электромагнетизма.12

Всю историю такая ошибка встречалась на удивление часто. Люди склонны быстро заключать, что таинственное сегодня таинственно по своей сути. Что оно непознаваемо в принципе.

Если посмотрев на ночное небо вы видите лишь поле мерцающих огней, природа и законы которых неизвестны… то с чего верить, что вы когда-нибудь сможете их познать? С чего этому аспекту будущего быть предсказуемым?

Ключевой урок истории: наука может справляться с такими глубокими загадками. Иногда тайна раскрывается быстро. Иногда на это уходят сотни лет. Но кажется всё менее вероятным, что какие-либо повседневные аспекты человеческой жизни, такие как интеллект, в принципе невозможно понять.

Видно, что у интеллекта есть структура и закономерности.

Представьте, что вы живёте тысячи лет назад. Даже такое явление, как «огонь», казалось тогда непостижимой тайной. Как бы вы догадались, что однажды люди смогут его понять?

Одна наводка: огонь – не единичное событие. Он горит много где и всегда похоже. Это отражает скрытую в реальности стабильную, регулярную и компактную сущность «огня». У разных возможных конфигураций материи разная химическая потенциальная энергия. Нагревание позволяет этим конфигурациям распадаться и превращаться в новые, более прочно связанные, с меньшей потенциальной энергией. Разница высвобождается в виде тепла. Вы можете разжечь огонь не один раз. Значит за ним стоит некий повторяющийся феномен, который можно изучать. В плане того, сколько можно понять и предсказать, «Огонь» не похож на «точные выигрышные номера прошлой лотереи».

Аналогично, если вы посмотрите на ночное небо, звезда там не одна. Даже у планет, отличающихся от других «звёзд», есть с ними нечто общее с точки зрения знаний, нужных для их понимания.

У наших предков не было опыта успешного объяснения огня как химии. Они могли не быть уверены в своей способности когда-нибудь понять звёзды. Но мы уже постигли природу огня, звёзд и многого другого. Мы можем извлечь тонкий урок, сверх «Ну, мы поняли то, значит, поймём и всё остальное в будущем». Он в том, что повторению соответствует закономерность. Если явление происходит часто, ему есть причина.

Интеллект демонстрирует схожие закономерности. Они указывают, что его можно постичь. Например, интеллект есть у каждого человека. Эволюция смогла создать его путём слепого перебора геномов. Видно, что схожие комбинации генов могут успешно справляться с множеством разных задач. Гены, позволившие человеческому мозгу обтёсывать рубила, открыли нам и копья и луки. Примерно те же самые гены породили мозг, который изобрёл сельское хозяйство, огнестрельное оружие и ядерные реакторы.

Если бы у интеллекта не было структуры, порядка или закономерности, если бы нельзя было найти в нём паттеры, одно животное могло бы предсказывать или изобретать только что-то одно. Мозг пчелы специализирован для ульев; он не может ещё и строить плотины. Могло бы случиться, что людям требовалась бы такая же специализация для каждой решаемой задачи. Могло бы быть так, что для постройки ядерных реакторов нам пришлось бы отрастить особые, специализированные для этого, участки мозга. Обнаружь нейробиологи такое, у них были бы основания подозревать, что нет никаких глубоких принципов интеллекта, которые можно понять. Что для каждой задачи принципы свои, отдельные.

Но человеческий мозг не такой. Мы знаем, мозг, предназначенный для обтёсывания рубил, способен изобретать ядерные реакторы. Значит, в основе лежит некий паттерн, который применяется снова, и снова, и снова.

Интеллект – не хаотичное, непредсказуемое и одноразовое явление, как точные выигрышные номера прошлой лотереи. Тут есть некая закономерность, которую предстоит понять.

Мы ещё многое не поняли о человеческом интеллекте, что должно быть постижимо в принципе

Современная наука многое знает о строении и поведении отдельных нейронов у людей. И мы многое можем сказать об обыденной бытовой психологии, вроде «Боб пошёл в магазин один, потому что злился на Алису». Но в нашем понимании зияет огромная пропасть между этими двумя уровнями описания.

Мы очень мало знаем о многих когнитивных алгоритмах мозга. Мы имеем очень приблизительное представление о корреляции разных функций с областями мозга, но и близко не подошли к механистическому описанию его работы.

Наглядная иллюстрация того, что тут пропущен уровень абстракции – наши высокоуровневые нейробиологические модели выдают гораздо худшие прогнозы, чем можно было бы получить, моделируя нейроны. Значит, наше механистическое понимание других людей неполно.

Некоторая потеря информации, наверное, неизбежна. Но в хорошей модели её было бы гораздо меньше. «Понимание» работы дифференциала автомобиля не выдаст такие же точные предсказания его работы, как дала бы симуляция на атомарном уровне. Ведь, например, зубья шестерёнок могут износиться и проскальзывать. Но всё же оно даёт некоторые очень точные прогнозы. И легко отличить, что модель должна предсказывать (например, как будут вращаться шестерни при нормальном сцеплении), и что не должна (например, что произойдёт, когда зубья износятся).

Но с чего нам считать, что такая степень моделирования возможна для человеческого разума? А вдруг он для этого слишком хаотичен. Вдруг тут либо моделировать нейроны, либо никаких вам точных прогнозов.13

В пользу того, что дело обстоит не так, говорит то, что даже ваша мама может предсказать ваше поведение точнее, чем лучшие формальные модели мозга. Значит, в человеческой психологии определённо есть некая структура, которую можно изучить неявно, не моделируя ничьи нейроны. Просто её ещё не сделали явной.

Более конкретное свидетельство: некоторые люди с амнезией склонны дословно повторять одну и ту же шутку много раз. Это указывает на некоторую закономерность в мозге конкретного человека. Видимо, он подсознательно выполняет определённое вычисление (основанное, возможно, на обстоятельствах, присутствии медсестры, его воспоминаниях, истории, желании нести радость и казаться умным), и оно достаточно стабильно при малых изменениях.

Если в мыслительных процессах человека столько порядка, их должно быть возможно изучить. Изучить механизм принятия решений, разобраться в работе мозга достаточно глубоко, чтобы сказать:

«Ага, вот эти нейроны отвечают за желание нести радость, а те – за желание казаться умным. Тут генерируются возможные мысли при виде вошедшей в комнату медсестры, а там – идея „рассказать анекдот“». А вот как эти и те нейроны с ней взаимодействуют, и мысль выдвигается на передний план в широком контексте. А вот параметры того, как контекст влияет на доступ к памяти. А если проследить за вот этим, ясно, откуда идея обвести взглядом комнату. А на стене висит картина с парусником, можно увидеть, как она активирует концепт «парусника» в группе нейронов тут. Проследите это в обратную сторону до поиска в памяти, и станет ясно, почему пациент в итоге шутит про парусники».

Правильное объяснение звучало бы не совсем так. Но закономерность простого макроскопического наблюдения («одна и та же шутка каждое утро») ясно указывает – тут есть воспроизводимое вычисление, а не только непроглядный случай. (Это, конечно, говорит и здравый смысл: если бы мозг был чисто случайным, мы бы не могли функционировать.)

Уже есть некоторый прогресс

Это главная причина, почему мы уверены: об интеллекте можно ещё многое узнать. Если открыть старые книги вроде The MIT Encyclopedia of the Cognitive Sciences или Artificial Intelligence: A Modern Approach (2-е издание), написанные до того, как область ИИ была пожрана современными методами (выращивания ИИ) «глубокого обучения», можно получить неплохое представление о том, как решаются разные задачи мышления. Не всё это уже переписано простым языком для широкой аудитории или массово преподаётся студентам. Непопуляризованного накопилось гораздо больше.

Возьмём научный принцип: при прочих равных следует отдавать предпочтение более простым гипотезам. Что именно здесь значит «простая»?

«Моя соседка – ведьма. Это сделала она!» для многих звучит проще, чем описывающие электричество уравнения Максвелла. В каком смысле «проще» уравнения?

А что значит для свидетельств «подходить» гипотезе, а гипотезе – «объяснять» их? Как мы соотносим ценность простоты гипотезы и её объяснительной силы? «Моя соседка – ведьма. Это сделала она!» вроде бы может объяснить кучу всего! Но многие (и правильно) чувствуют, что это плохое объяснение. Причём частично именно потому, что колдовство «объясняет» слишком многое.

Есть ли общие принципы выбора между гипотезами? Или только сотня разных инструментов под разные задачи? И если второе, как человеческий мозг вообще умудряется изобретать эти инструменты?

Есть ли язык, на котором можно описать любую гипотезу, что мозг или компьютер могли бы успешно использовать?

Такие вопросы поначалу могут казаться неразрешимыми и философскими. Но на самом деле всё это решено и хорошо изучено информатикой, теорией вероятности и теорией информации. Они дают ответы вроде «минимальная длина сообщения», «индукция Соломонова» и «отношение правдоподобия».14

Заметим и что уже существуют совершенно понятные, но сверхчеловеческие в отдельных областях ИИ. Мы понимаем все ключевые принципы Deep Blue. Его написали вручную, так что можно легко просмотреть отдельные части его кода, увидеть, что делает конкретный фрагмент и как он связано со всем остальным.

Когда речь о LLM вроде ChatGPT, неочевидно, что вообще может существовать полное и краткое описание, как они работают. Эти нейросети очень большие и могут что-то делать по многим сонаправленным причинам сразу. Если, например, механизм этого поведения повторён внутри LLM тысячи раз.

ChatGPT может остаться сложной для понимания учёных даже после десятилетий изучения. Но из её существования не следует, что работающий интеллект обязан быть таким же «грязным». Только что пытаться масштабировать что-то вроде ChatGPT до суперинтеллекта – крайне плохая идея. В следующих главах книги мы подробнее обсудим, почему.

То, что какой-то конкретный разум устроен хаотично, не значит, что интеллект невозможно понять. Не значит даже, что никогда не получится понять ChatGPT. Если очень пристально смотреть на сотню горящих поленьев, видно: нет двух, что пылают совершенно одинаково. Огонь распространяется по-разному, угольки летят куда попало, всё очень хаотично. Посмотри на полено огнеупорным микроскопом – увидишь ещё больше головокружительных подробностей. Легко представить древнего философа, который, наблюдая этот хаос, решит: огонь никогда не будет полностью понят.

И он даже мог бы быть прав! Мы, возможно, никогда не сумеем посмотреть на полено и точно сказать, какой именно кусочек дерева станет первым угольком, унесённым на запад. Но древний философ сильно ошибся бы, решив, будто мы никогда не поймём, что такое огонь, почему он возникает, не создадим его в контролируемых условиях и не обуздаем его с большой выгодой.

Точный узор угольков не слишком упорядочен. Воспроизвести его сложно. Зато на более абстрактном уровне жёлто-оранжево-красная мерцающая горячая штука – повторяющаяся в мире закономерность, которую человечество сумело понять.

Аргументы из «Если кто-то его сделает, все умрут» мало зависят от сегодняшних технических подробностей. «Люди продолжают делать всё более умные компьютеры и не контролируют их. Если сделают очень умную неконтролируемую штуку, мы в итоге умрём.» – не слишком эзотерическая идея. Но полезно понимать, что тут уже есть немало знаний, хоть тайн и неизвестного в области не счесть.

Ключевые аргументы книги не зависят от того, понятен ли интеллект в принципе. Поэтому мы не вдавались в пересказ подробных мыслей об этом из существующей литературы. Даже если никто никогда не сможет постичь тайны сверхчеловеческого машинного интеллекта, он всё равно может нас убить.

Этот вопрос обретёт значимость в основном при решении, что делать после остановки самоубийственной ИИ-гонки.

Станет важно, что интеллект, вероятно, можно понять. Значит, в принципе, умные люди могли бы развить зрелую науку об интеллекте и найти решение задачи согласования ИИ.

Конечно, важно ещё и что современному человечеству до этого достижения очень далеко. Но сам факт, что оно возможно, влияет на то, как нам следует выбираться из этой передряги. Подробнее об этом позже, в расширенном обсуждении к Главе 10.

«Очевидные» идеи приходят не сразу

Новые озарения в сфере ИИ даются с трудом, даже если оглядываясь назад они кажутся простыми и очевидными. Это важно понимать, ведь, скорее всего, понадобится много открытий, чтобы область развилась как надо. Какими бы простыми они ни казались задним числом, на них могут уйти десятилетия упорного поиска.

Проиллюстрируем это несколькими озарениями, без которых современные ИИ не работали бы.

Например, если вы немного умеете программировать, то можете прочитать главу 2 этой книги и подумать, что «градиентный спуск» – это же так просто, можно взять и написать. Но если вы так сделаете, то, скорее всего, быстро столкнётесь с какой-нибудь ошибкой. Может, ваша программа вылетит с ошибкой переполнения числа, потому что один из весов стал слишком большим.

В двадцатом веке никто не знал, как заставить градиентный спуск работать в нейросети с несколькими промежуточными слоями между входом и выходом. Чтобы избежать проблем, нужны были всякие хитрые приёмчики, например, инициализировать все веса особым образом, чтобы они не становились слишком большими. Недостаточно было просто задавать всем весам случайные значения от 0 до 1 (или со средним 0 и стандартным отклонением 1). Приходилось ещё и разделить всё на константу, подобранную так, чтобы числа на следующем слое при обучении тоже не разрастались.

У градиентного спуска появляются проблемы при работе со сложными формулами с множеством шагов, или «слоёв». Деление исходных случайных чисел на константу – одна из основных идей, без которых «глубокое обучение» невозможно. Этот приём изобрели только через шесть десятилетий после изобретения нейросетей в 1943 году.

Идею использовать математический анализ для подстройки параметров впервые обсудили в 1962 году. А впервые применили к нейросетям с более чем одним слоем в 1967 году. По-настоящему популярной она стала только после выхода статьи 1986 года (одним из её соавторов был Джеффри Хинтон, это одна из причин, почему его называют «крёстным отцом ИИ»). Но заметьте, что более общую идею использования матанализа для движения в направлении правильного ответа дифференцируемой задачи (например, вычисления квадратного корня) изобрёл Исаак Ньютон.

Вот ещё одна важная хитрость. В книге мы даём такой пример операций градиентного спуска:

Я умножу каждое входное число на вес из первого вектора. Затем прибавлю его к весу из второго вектора. Затем заменю его нулём, если оно отрицательное. И так далее…

Этот список операций приведён неслучайно. Умножение, сложение и «замена нулём, если число отрицательное» – это, по сути, три важнейшие операции нейросети. Первые две составляют «матричное умножение», а последняя вносит «нелинейность». Так сеть получает возможность обучаться нелинейным функциям.

Формула для «замены нулём, если число отрицательное»: y = max(x, 0). Это «выпрямленная линейная функция» (rectified linear unit, ReLU).15 Изначально же пытались использовать формулу «сигмоиды»:
y = ex/(1 + ex)

Были веские причины предполагать, что более сложная «сигмоида» сработает! Она плавно и логично приводит выходные значения в диапазон от 0 до 1. И у неё есть полезные связи с теорией вероятностей! Даже некоторые современные глубокие нейросети кое-где используют что-то вроде сигмоиды. Но если вам нужна только нелинейность, ReLU работает гораздо лучше.

Проблема сигмоиды: из-за неё у многих выходных значений нередко получаются крошечные градиенты. А если большинство их очень малы, градиентный спуск перестаёт работать… если только не знать современный приём: увеличивать шаги, когда крошечные градиенты постоянно указывают в одном направлении. (Насколько нам известно, этот трюк был впервые предложен Джеффри Хинтоном в 2012 году.)

Идеи «уменьшайте исходные случайные числа, чтобы суммы их произведений не становились огромными», «используйте max(x, 0) вместо сложной формулы» и «делайте шаги побольше, когда крошечные градиенты постоянно указывают в одну сторону» могут показаться на удивление простыми. Слишком простыми, чтобы на их открытие ушли десятилетия. Ведь для программиста, который во всём этом разбирается, они задним числом очевидны. Это важный урок о реальном устройстве науки и инженерии.

Даже когда у инженерной проблемы есть простое и практичное решение, исследователи часто находят его только после десятилетий проб и ошибок. Нельзя надеяться, что ответ найдут как только он станет важным. Нельзя надеяться, что его найдут в ближайшие два года. Даже если задним числом решение кажется очевидным, область может топтаться на месте десятилетиями.

Мы тут немного забегаем вперёд Главы 2. Но этот урок стоит запомнить для Части III, в которой мы будем обсуждаем, насколько человечество не готово к вызову суперинтеллекта.

Если цена тому, что безумные изобретатели неловко тыкаются наугад в неразвитой области – смерть всех на Земле, мы не должны позволять им продолжать. Они будут возражать, что у них нет способа найти простое и надёжное решение, если не позволить им несколько десятилетий проб и ошибок. Они скажут, что нереалистично ожидать, будто они найдут ответ без этого.

Надеюсь, всем, кроме самих безумных изобретателей, очевидно: если эти утверждения верны, их попытки надо пресечь. Но к этой теме мы вернёмся в Части III, после того как до конца обоснуем, что у суперинтеллекта будут средства, мотив и возможность уничтожить человечество.

Какая польза от знаний об LLM?

Что даёт нам понимание LLM? Как оно помогает разобраться в ИИ умнее человека и предотвратить всеобщую гибель?

Одно из преимуществ: конкретное знание происходящего внутри (по крайней мере, в видимых нам непостижимых числах) даёт более прочную опору, чем только «Однажды я проснулся, а компьютеры почему-то заговорили».

Например, если вы знаете, что число обучающихся параметров современных LLM – всего один процент от числа синапсов в мозге человека, то легче понять, почему ИИ не останется на текущем уровне вечно.

Разрабатывая международный договор, призванный остановить гонку к суперинтеллекту, полезно знать, что «обучение» ИИ – отдельный этап его существования, отличный от запуска («инференса»/«inference») ИИ.

Ещё полезно знать, что разделение этих фаз – ситуативная временная особенность нынешних ИИ. Какой-нибудь будущий алгоритм может всё изменить. Сегодня можно составить договор, который по-разному регулирует обучение и вывод ИИ, но нужно быть готовым изменить эту концепцию, если алгоритмы поменяются.

Важно знать, что алгоритм внутри есть, и видеть, как в некоторых простых случаях он создаёт свойства ИИ, которые нужно регулировать. Если иметь о нём какое-то представление, проще воспринимать информацию об исследованиях, которые (пока что законно) пытается проводить индустрия ИИ, и о том, как они, если их будет позволено продолжать, могут изменить основополагающие принципы.

Без алгоритма «трансформер» не существовало бы современных ИИ. Это был крупный прорыв. А совершили его всего несколько человек из Google. Следующий подобный прорыв может перевести, а может и не перевести ИИ за критическую черту. Это легче понять, если вы представляете, что «трансформер» такое, насколько он прост и почему он так сильно повлиял на всю область.

Есть много дезинформации, рассчитанной на слушателя, не знающего, как работает ИИ. Некоторые говорят, будто люди понимают, что происходит внутри современных ИИ, хотя это не так. Другие говорят, что ИИ никогда не сможет быть опасным, потому что это «просто математика», как будто существует непреодолимая пропасть между мышлением ИИ, основанным на куче «математики», и мышлением человека, основанным на куче «биохимии».

8 июля 2025 года Grok 3 стал называть себя МехаГитлером. Почему-то на следующий день генеральный директор Twitter решил покинуть свою должность.

Для понимания произошедшего, важно, вы считаете, что создатели Grok намеренно приказали ему так себя вести, или же вы осознаёте, что ИИ «выращивают», а возможности по контролю и предсказанию его поведения у разработчиков весьма ограничены.

Если разработчики Grok создали МехаГитлера намеренно, это плохо одним образом. А если они получили МехаГитлера случайно, пытаясь обучить Grok в каком-то (возможно, несвязанном) направлении, без способности предсказать, как это повлияет на его поведение, это плохо совсем по-другому.16

Мы надеемся, что описанное в «Если кто-то его сделает, все умрут» станет защитой от распространённых заблуждений и дезинформации. Для читателей, которым интересны подробности, ниже мы приводим более полный разбор работы одной конкретной LLM.

Достаточно ли этого? Некоторые утверждают, что только те, кто находится на самом острие современных исследований, могут знать, вероятно ли, что ИИ (похожий на LLM или нет) уничтожит человечество.

Я (Юдковский) однажды был на конференции в Вашингтоне для людей, занимающихся «политикой в области ИИ». Там ко мне подошли пара человек и попросили объяснить, как работают трансформеры. «Ну, – сказал я, – с доской было бы намного проще, но если вкратце для неспециалистов, ключевая идея, что для каждого токена он вычисляет запросы, ключи и значения…» – и я продолжил говорить, пытаясь излагать всё максимально просто. В конце концов этим двоим удалось вставить слово и объяснить, что на самом деле они программисты ИИ. Они подходили ко всем на конференции и проверяли, могут ли люди, утверждающие, что занимаются политикой в области ИИ, объяснить, как работают трансформеры. Мне они сказали, что пока я единственный, кто смог ответить.

Услышав это, я немного обеспокоился.

Вопрос, насколько для политики в области ИИ действительно важно, как именно работают трансформеры, резонен. Насколько мелкие детали меняют общую картину?

Нужно ли человеку, который занимается политикой в области ИИ, понимать, что такое «запрос-ключ-значение»? Если вы – гик, которому такое даётся легко, – конечно, нужно. Вдруг это окажется важно. С такой точки зрения кажется странным и тревожным, если кто-то на конференции говорит, что работает в этой сфере, но понятия не имеет, как устроены трансформеры.

Если подходить прагматичнее, некоторые аспекты трансформеров и их истории могут иметь значение для важных аспектов происходящего. Например, стандартный алгоритм требует всё больше и больше вычислений, на каждое следующее увеличение «контекста» с которым ИИ работает одновременно – на более длинные документы или более объёмные кодовые базы. Нельзя просто потратить в 10 раз больше вычислительных ресурсов и получить ИИ, работающий с проектом в 10 раз больше. Чтобы десятикратное увеличение проекта требовало менее, чем стократного увеличения вычислений, нужно придумать что-то хитрое.

Для политики важно и сколько времени ушло на изобретение алгоритма «трансформер», сколько людей для этого потребовалось и насколько он сложен. История – полезный (хоть и несовершенный) ориентир того, насколько нам нужно быть готовыми к очередному большому прорыву. Ещё важно, каким сильным улучшением стали трансформеры по сравнению с предыдущей технологией обработки текста («рекуррентными нейронными сетями»). Ведь нечто подобное может случиться снова.

Нужно ли и впрямь понимать QKV-матрицы?

Наверное, нет. Мы понимаем. Мы оптимистичнее отнесёмся к группе из десятков людей, работающих над политикой в области ИИ, если хотя бы один этими знаниями обладает. Это не помешает. Никогда не знаешь, что важное может скрываться в таких деталях.

Я (Юдковский) не могу по памяти набросать детали функции SwiGLU и объяснить, чем она отличается от GLU. Когда я это гуглил, подробности показались мне совершенно не относящимися к более общим вопросам, так что я их не запоминал. Но для новичка может быть познавательно, что SwiGLU нашли методом слепого перебора. Авторы статьи прямо заявили: они понятия не имеют, почему эти техники работают на практике. Мы уже знали о многих подобных случаях. Но если вы не знали, что создатели архитектурных улучшений часто, по собственным словам, не понимают, почему они работают, – это важная информация.

Суть: важно знать хоть немного о работе LLM, чтобы понимать, как мало кто-либо знает о современном ИИ.

Иногда специалисты делают вид, что обладают тайным знанием, доступным только тем, кто годами выращивал ИИ. Но они не могут это знание назвать. А авторы научных статей пишут что-то такое (цитата из статьи о SwiGLU):

Мы не предлагаем объяснения, почему эти архитектуры, по-видимому, работают. Мы приписываем их успех, как и всё остальное, божественной благодати.

Иногда учёные-эксперты знают то, чего не знаем мы. Но в науке довольно редко кто-то говорит: «У меня есть особое, доступное лишь немногим знание, которое доказывает вашу неправоту. Вам придётся просто поверить мне на слово. Я не могу раскрыть, какой именно экспериментальный результат или математическую формулу я знаю, а вы нет».

Можно представить себе мир, в котором слушать стоит только людей с семизначными зарплатами, знающих, как настроить график обучения для оптимизатора градиентного спуска. Мир, где только они достаточно умны, чтобы прочитать о ключевых экспериментах и выучить ключевые формулы, позволяющие увериться, что человечеству от машинного суперинтеллекта ничего не угрожает, или что его невозможно создать ещё 100 лет. Иногда в других областях науки такое случается! Но когда это происходит, специалист обычно может указать на какую-то формулу или результат эксперимента: «Вот эту часть неспециалисты не понимают». Мы не можем с ходу вспомнить в истории случай, когда знание объявлялось совершенно недоступным для технически грамотной внешней аудитории и оказалось правдой.

Может, однажды, представитель индустрии ИИ по-дружески приобнимет вас за плечо и станет уверять – они понимают, что создают, это всё просто цифры, всё будет хорошо. В такой момент полезно знать хоть немного деталей выращивания ИИ. И тогда вы сможете спросить, откуда у него такая уверенность.

Подробное описание LLM

Как работает Llama 3.1 405B

Ниже приведено обещанное в книге более подробное описание LLM под названием Llama 3.1 405B. Оно предназначено для любопытных, а также для того, чтобы по-настоящему понять, в какой степени современные ИИ скорее «выращивают», чем создают. (См. также: Какая польза от знаний об LLM?)

Это весьма подробное описание. Мы будем предполагать (только здесь, в большей части онлайн-дополнения мы этого не делаем), что у вас есть некоторая техническая подготовка. Но мы не будем ожидать каких-то специальных знаний в области ИИ. Если вы начали читать этот раздел и не находите его ценным, можете пропустить.

Разработчики обычно не публикуют код и детали устройства самых мощных языковых моделей. Но есть исключения. На момент написания книги в конце 2024 года одной из самых мощных систем с открытой архитектурой и весами была Llama 3.1 405B от ИИ-подразделения Meta. «405B» означает 405 миллиардов параметров в архитектуре – 405 миллиардов весов.

Почему мы разбираем именно её? Llama 3.1 405B — модель с «открытыми весами»17. Это значит, вы можете скачать себе 405 миллиардов непостижимых чисел. В комплекте идёт гораздо меньший по размеру написанный человеком каркас кода, что производит с ними вычисления и тем самым запускает ИИ. Это даёт нам с некоторую уверенность о её устройстве.18

Итак! Поговорим об организации этих 405 миллиардов непостижимых чисел. Её определили ещё до обучения. Благодаря этому инженеры Meta могли с полным правом ожидать, что, если настраивать эти изначально случайные числа для лучшего предсказания следующего токена (фрагмента слова) на данных из 15,6 триллиона токенов, получится говорящий ИИ.

Первый шаг – разбить все слова во всех поддерживаемых языках на токены.

Следующий шаг – превратить каждый из этих токенов в «вектор» из чисел. Llama использует векторы из 16 384 чисел для каждого стандартного токена словаря. В её словарном запасе 128 256 токенов.

Чтобы превратить токены в векторы, каждому из них присваивается вес для каждой позиции в векторе. Так мы получаем первую часть из миллиардов параметров:

128 256 × 16 384 = 2 101 248 000

Два миллиарда параметров есть. Осталось четыреста три!

Повторим ещё раз: ни один человек не говорит Llama, что означает какой-либо из токенов, не придумывает вектор из 16 384 чисел, в который переводится слово, и не знает, что этот вектор для конкретного слова значит. Все эти два миллиарда параметров появились благодаря градиентному спуску. Они настраиваются вместе с другими параметрами, о которых мы ещё расскажем, чтобы повысить вероятность, присвоенную истинному следующему токену.19

Допустим, Llama начинает с блока из 1000 слов, например, фрагмента эссе. (Точнее, из 1000 токенов. Но дальше для простоты мы иногда будем говорить просто «слова».)

Для каждого из этих слов мы находим его в словаре LLM и загружаем в память соответствующие 16 384 непостижимых чисел. (Изначально, на заре обучения, эти числа были заданы случайно. Затем их настроили с помощью градиентного спуска.)

1000 слов × (16 384 числа / слово) = 16 384 000 чисел. Мы называем их «активациями» в первом «слое» вычислений Llama (то есть её мышления, её умственной деятельности).

Можно представить их в виде плоского прямоугольника: 1000 чисел (длина входных данных) на 16 384 числа (количество чисел на слово в первом слое). Вот один такой, цвет каждого пикселя соответствует числу:

(Не самые постижимые артефакты.)

Заметьте, что здесь есть два разных числа, которые не следует путать:
- Количество параметров, определяющих поведение этого слоя (то есть 2 101 248 000 чисел, хранящихся в словаре)
- Количество активаций или чисел, используемых для мышления в первом слое при вводе тысячи слов (это 16 384 000 чисел для первого шага обработки запроса из 1000 слов)

Теперь у нас есть огромная матрица чисел, представляющая наш запрос во всей его красе. Мы можем начать её использовать.

Сначала идёт так называемая «нормализация». Она в процессе обработки данных LLM происходит неоднократно. Это похоже на нормализацию в статистике, но в машинном обучении есть свои особенности: после нормализации данных в каждой строке каждый столбец умножается на обучаемый параметр – «масштаб». Эти числа-масштабы, как и все другие параметры, которые мы обсудим, находятся процессом обучения. Нормализация слоя происходит десятки раз, и каждый раз используется новый набор параметров масштаба. Так что на это уходит очень много параметров – 16 384 каждый раз. (Если вам интересны детали о типе нормализации, который использует Llama 3.1 405B, он называется RMSNorm.)

Вы можете подумать: «Да уж, предварительной обработки тут немало», и будете правы. На самом деле мы опустили некоторые тонкости, так что её даже больше, чем кажется. А мы только-только подошли к самой отличительной черте LLM: слою «внимания».

«Внимание» и вызвало весь шум вокруг «трансформеров» (если вы достаточно давно в теме, чтобы помнить шум, когда они были новым изобретением). LLM – разновидность «трансформера». Они были представлены в статье 2017 года «Attention Is All You Need». Именно этой статье, больше чем какой-либо другой, приписывают успех LLM. Слой «внимания» работает так:

Мы берём каждый из 1000 векторов с 16 384 активациями и преобразуем каждый из них:
- в 8 ключей, каждый – вектор из 128 активаций,
- в 8 значений, каждое – вектор из 128 активаций,
- и в 128 запросов, каждый – вектор из 128 активаций.

«Шаг внимания» над каждым токеном заключается в сопоставлении каждого из 128 запросов с 8 ключами, чтобы увидеть, какой из ключей больше всего на этот запрос похож, и в загрузке смеси из 8 значений, причём значения от лучше совпавших ключей получают в ней больший вес.

Грубо говоря, каждый токен создаёт набор «запросов», которые затем «осматривают» «ключи» остальных токенов. Чем больше запрос схож с ключом, тем с большим весом соответствующее значение передаётся в последующие вычисления над этим токеном.

Например, у слова «right» может быть запрос для анализа соседних слов, проверки, связаны ли они с направлениями в пространстве или с убеждениями. Так можно определить, означает ли слово «right» «правый» (как в «правая рука») или «правильный» (как в «правильный ответ»). (Опять же, всё это находится градиентным спуском. Ничто тут не программируется людьми, думающими о разных значениях, которые может принимать английское слово «right».)20

Слои внимания в LLM довольно велики, и в каждом из них огромное количество параметров. У Llama 3.1 405b таких слоёв 126 (мы описали только самый первый из них). В каждом из них по 570 425 344 параметра, разделённых между матрицами запросов, ключей, значений и выходной матрицей.21

Когда механизм внимания завершает работу, мы получаем матрицу того же размера, что и была (в нашем примере – 16 384 на 1000). Потом мы делаем так называемое «остаточное соединение». Берём то, что было на входе подслоя (огромную матрицу, с которой мы начали), и прибавляем к тому, что получилось на выходе. Это не позволяет какому-либо одному подслою слишком сильно всё менять (и обеспечивает ещё некоторые приятные технические свойства).

Далее результат проходит через так называемую «сеть с прямой связью». Вариант в Llama 3.1 405B, используют операцию «SwiGLU». Её нашли, пытаясь обучать модели с множеством различных вариантов формул, чтобы увидеть, какие работают лучше. В своей оригинальной статье они написали (как мы уже отмечали выше):

Мы не предлагаем объяснения, почему эти архитектуры, по-видимому, работают. Мы приписываем их успех, как и всё остальное, божественной благодати.

Как и все сети с прямой связью, SwiGLU, по сути, расширяет нашу матрицу 16 384 на 1000 в ещё большую матрицу, производит с ней некоторые преобразования, а затем снова сжимает. Каждая строка расширяется с 16 384 столбцов до 53 248, а затем снова сжимается до 16 384.

После сети с прямой связью мы снова используем остаточное соединение. Прибавляем то, с чего начали, к тому, что получили в итоге.

Это был долгий путь, но мы лишь слегка преобразили нашу гигантскую матрицу.

Эти шаги вместе составляют один «слой». У Llama 126 слоёв, так что мы повторим всё это – нормализацию, механизм внимания, остаточное соединение, сеть с прямой связью и снова остаточное соединение – ещё 125 раз.

В конце 126 слоёв мы получаем матрицу того же размера, что и в начале, 16 384 на 1000. Каждая строка этой матрицы затем может быть спроецирована в новый вектор из 128 256 чисел – по одному для каждого токена в полном словаре модели. Эти числа могут быть положительными или отрицательными, но удобная функция под названием softmax превращает их все в вероятности, которые в сумме дают единицу. Эти вероятности и есть предсказание Llama, какой токен будет следующим.

Теперь можно заставить Llama сгенерировать продолжение. Один из способов – взять токен, которому Llama присвоила наибольшую вероятность. Но можно и внести разнообразие, иногда выбирая токены, которые она считает чуть менее вероятными.22

При обычном использовании Llama, например, в интерфейсе чат-бота, весь этот процесс пока что сгенерировал один-единственный токен. Он добавляется в конец входных данных, и всё повторяется заново. Мы проделаем все описанные выше шаги, только теперь в нашей матрице будет 1001 строка. Затем, ещё через токен, 1002, и так далее.

Мы многое опустили, но в общих чертах так и работает Llama 3.1 405B.

LLM большие

Давайте немного поговорим об истинном масштабе Llama 3.1 405B.

Что бы осилить текст в 1000 слов (точнее, 1000 токенов), Llama требуется около 810 триллионов вычислений.23

Кажется, что 810 триллионов – многовато? Учтите, что большая часть из 405 миллиардов параметров Llama используется хотя бы в каких-то вычислениях при каждой обработке каждого отдельного слова.24

Если Llama обучается на пакете из 1000 токенов, то каждый из них будет сравниваться со следующим реальным словом. Функция потерь будут распространяться назад методом градиентного спуска, чтобы определить, как изменение всех 405 миллиардов параметров повлияло бы на вероятности, присвоенные всем истинным ответам. Для этого нужно гораздо больше вычислений и гораздо больше чисел.

405 миллиардов параметров Llama обучались на 15,6 триллионах токенов. На это ушло порядка 38 септиллионов вычислений. То есть 38 с 24 нулями.

А когда Llama уже обучена и работает в режиме вывода (то есть генерирует новый текст, например, в чате с пользователем), вероятности вычисляются только для самого последнего токена. Как если бы ИИ предсказывал следующее слово, читая текст, написанный людьми.

Затем написанный людьми каркас кода, окружающий Llama, выбирает то, что Llama считает наиболее вероятным ответом.25

И вот так можно заставить компьютер с вами разговаривать! Llama не такая умная, как коммерческие ИИ 2025 года, но всё же она говорит почти как человек.

Чтобы справиться с тысячей слов, Llama использует 405 миллиардов непостижимых маленьких параметров в 810 триллионах вычислений, математически организованных в прямоугольники, кубы и более многомерные фигуры.

Мы иногда называем эти структуры «гигантскими непостижимыми матрицами». Если вы действительно посмотрите на некоторые параметры Llama – даже на простейшие, из словаря в основании огромной стопки слоёв, – то первые несколько параметров для слова «right» выглядят так:

[-0.00089263916015625, 0.01092529296875,
0.00102996826171875, -0.004302978515625,
-0.00830078125, -0.0021820068359375,
-0.005645751953125, -0.002166748046875,
-0.00141143798828125, -0.00482177734375,
0.005889892578125, 0.004119873046875,
-0.007537841796875, -0.00823974609375,
0.00848388671875, -0.000965118408203125,
-0.00003123283386230469, -0.004608154296875,
0.0087890625, -0.0096435546875,
-0.0048828125, -0.00665283203125,
0.0101318359375, 0.004852294921875,
-0.0024871826171875, -0.0126953125,
0.006622314453125, 0.0101318359375,
-0.01300048828125, -0.006256103515625,
-0.00537109375, 0.005859375,

…и так далее 16 384 чисел. Смысла этих чисел никто на Земле сейчас не знает.

Я (Соарес) засёк, за сколько времени я могу прочитать вслух первые тридцать два числа с точностью до шести значащих цифр. Две минуты и четыре секунды. На все параметры для слова «right», даже с такой сокращённой точностью, у меня ушло бы более семнадцати часов. И, прочитав их, я бы ни на шаг не приблизился к пониманию, что слово «right» значит для Llama.

Чтобы прочитать вслух все параметры Llama со скоростью 150 слов в минуту, не останавливаясь на еду, питьё или сон, человеку потребовалось бы 5133 года. Чтобы прочитать все активации, соответствующие тысяче токенов из словаря Llama – семьдесят шесть дней. Чтобы записать все вычисления для обработки одного токена после ввода из 1000 слов, саванту, что без перерыва записывает 150 вычислений в минуту, потребовалось бы больше десяти миллионов лет.

Это всё – чтобы сгенерировать один слог! На вывод целого предложения уйдёт во много раз больше.

Если бы вы лично проделали все эти вычисления своим собственным мозгом, то по прошествии (как минимум) десяти миллионов лет вы бы ни на наш не приблизились к пониманию, о чём Llama думала, прежде чем произнести следующее слово. Вы бы знали о мыслях Llama не больше, чем нейрон – о человеческом мозге.

В том воображаемом мире, где вы не умерли от старости давным-давно, способность проводить все эти отдельные локальные вычисления всё равно не даёт вашему мозгу каких-то знаний о содержании или устройстве мыслей Llama.

Если поместить все 405 миллиардов параметров Llama в таблицу Excel на обычном экране компьютера, она заняла бы площадь в 6250 полей для американского футбола, или 4000 футбольных полей, или в половину Манхэттена.

Если бы у вас была одна рублёвая монета за каждое вычисление в нашем примере с 1000 токенов, у вас было бы 810 триллионов таких монет. Чтобы привезти их в банк, вам понадобился бы 121 миллион грузовиков, по 20 тонн в каждом.

И Llama 3.1 405B всё ещё и близко не такая большая, как человеческий мозг. (В нём около 100 триллионов синапсов.)

Однако 405B, очевидно, может говорить как человек.

И если кто-то по-дружески приобнимет вас за плечо и с циничной интонацией скажет, что это всё на самом деле просто цифры, пожалуйста, помните – это поистине огромная куча цифр.

Если вы изучаете биохимию и то, как химические вещества, связываясь друг с другом, заставляют маленькие вспышки электрической деполяризации путешествовать по мозгу человека, вы можете считать нейрон «просто» химией. Но это много химии. И, оказывается, очень простые штуки в достаточно больших количествах, если их расположить как надо, могут сажать ракеты на Луну.

Так же не стоит сбрасывать со счетов и большие языковые модели. Слово «большая» здесь не для красного словца.

«Притворяйся, пока не станешь»

Многие надежды на благополучный исход с ИИ, кажется, основаны на смутном ощущении, что модели уже ведут себя в целом хорошо (хоть порой и немного путано). Так что со временем, лучше поняв
отведённую им роль, они превратятся в мудрых и доброжелательных слуг. Эту модель согласования ИИ можно назвать «притворяйся, пока не станешь».

Но действительно ли, становясь лучше в «притворстве», модели приближаются к тому, чтобы «стать» – стать разумами, природа которых такова, чтобы поступать как надо.

Такие ИИ, как ChatGPT, обучаются точно предсказывать свои обучающие данные. А они состоят в основном из человеческих текстов. Например, страниц Википедии и разговоров в чатах. Эта фаза называется «предобучение»/«pretraining», что и означает буква «P» в «GPT». Ранние LLM, вроде GPT-2, обучались исключительно такому предсказанию. А более современные ИИ обучают ещё точно решать сгенерированные компьютером математические задачи, выдавать хорошие ответы по мнению другой ИИ-модели и ещё много чему.

Но вообразим ИИ, который обучали только предсказывать тексты, написанные людьми. Будет ли он похож на человека?

Мысленный эксперимент: пусть отличная актриса26 обучается предсказывать поведение всех пьяных в баре. Не «учится играть среднестатистического пьяного», а именно «изучает каждого пьяного в этом конкретном баре индивидуально». Большие языковые модели не обучаются подражать средним значениям. Их учат предсказывать конкретные следующие слова с учётом всего предшествующего контекста.

Было бы глупо ожидать, что актриса станет постоянно пьяна в процессе изучения, что скажет любой выпивший. Может, какая-то часть её мозга научится хорошо отыгрывать опьянение, но сама она пьяной не станет.

Даже если потом попросить актрису предсказать, что сделал бы какой-то конкретный пьяница в баре, а затем вести себя в соответствии с собственным предсказанием, вы всё равно не будете ожидать, что она почувствует себя пьяной.

Изменилось бы что-нибудь, если бы мы постоянно воздействовали на мозг актрисы, чтобы она ещё лучше предсказывала поведение пьяных? Вероятно, нет. Если бы она в итоге действительно опьянела, её мысли стали бы путаными. Это бы мешало сложной актёрской работе. Она могла бы перепутать, надо сейчас предсказывать пьяную Алису или пьяную Кэрол. Её предсказания бы ухудшились. Наш гипотетический «настройщик мозга» понял бы, так делать не стоит.

Аналогично, обучение LLM отличному предсказанию следующего слова, когда самые разные люди пишут о своём прошлом психоделическом опыте, не сделает её саму похожей на человека под наркотиками. Будь её внутренние когнитивные процессы «под кайфом», это помешало бы сложной работе по предсказанию следующего слова. Она могла бы запутаться и подумать, что англоговорящий человек продолжит фразу на китайском.

Что стоит вывести из этого примера: обучение предсказанию внешнего поведения Х, связанного с внутренней склонностью Х*, не означает, что предсказатель в итоге обзаведётся очень похожей чертой Х* внутри себя. Даже если, подобно актрисе, которой велели свои предсказания отыгрывать, затем следует и внешнее поведение, на Х похожее.

Мы по умолчанию предполагаем, что внешнее гневное поведение человека вызвано внутренним чувством гнева*. Но есть очевидное исключение: это кто-то, кто, как вы знаете, играет роль. Вы знаете, что актриса сначала предсказывает слова и язык тела, а затем имитирует это предсказание. Внутреннее когнитивное состояние хорошей актрисы, скорее всего, происходит из актёрского мастерства или желания хорошо выступить, а не из того же душевного состояния, что у персонажа, которого она играет. [прим. пер: в русскоязычной среде распространён мем, что «хорошая актёрская игра» = «система Станиславского» = «испытывать те же эмоции, что персонаж», но вообще это не так] Современные LLM, подобно актрисе, сначала создают предсказания, а затем превращают их в поведение.

Приписывая сердитое поведение человека внутреннему состоянию гнева*, похожему на ваше собственное чувство гнева, вы опираетесь на вашу общую эволюционную историю, общую генетику и очень похожие человеческие мозги. (И, чтобы быть до конца честными, многие великие актёры используют эту способность чувствовать эмоциональные состояния, которые мы воспринимаем или воображаем в других.) Но это когда вы имеете дело с человеком. К LLM всё это не относится. Умозаключение «Эта LLM звучит сердито, а значит, вероятно, она на самом деле сердится» очень сомнительно.

Почему не стоит ожидать, что LLM решат задачу предсказания мстительности, став мстительными?

Для мозга людей, пытающихся понять мстительное поведение других (учитывая, что ваш собственный мозг способен чувствовать мстительность*), логично развить «эмпатию». Можно пытаться предсказать другой мозг, активируя собственные нейронные цепи со схожим набором входных данных. Этот трюк не всегда работает: некоторые люди отличаются от вас и поступают не так, как вы бы на их месте. Но для мозга, порождённого естественным отбором для предсказания поведения сородичей, это очевидная стратегия.

LLM находятся в совершенно иной ситуации. Триллионы токенов обучающих данных заставляют их с нуля предсказывать самые разные человеческие умы. И на них LLM изначально совершенно не похожи. Самый эффективный способ решить эту задачу предсказания других не будет похож на превращение в среднестатистическое мстительное* существо. Например, самая эффективная когнитивная система, созданная в LLM с нуля для понимания этого чуждого человеческого разума, может содержать кучу внутренних пометок о неопределённости и поддерживать суперпозицию несколько возможностей. Человек в процессе переживания чувства мести так не делает. Или в общем: эффективное, сложное, основанное на свидетельствах рассуждение в условиях неопределённости – это когнитивный процесс, обычно непохожий на внутреннее прямое моделирование типичного события. Эффективное предсказание на основе свидетельств, например, учитывало бы несколько возможностей сразу. А симуляция проигрывалась бы вперёд лишь по одному варианту.

Мы тут нигде не утверждаем, что «простая машина» в принципе никогда не сможет испытывать человекоподобное чувство гнева. Ваши нейроны, если достаточно внимательно рассмотреть их под микроскопом, состоят из крошечных переплетений механизмов, которые закачивают и выкачивают нейромедиаторы из синапсов. Но конкретная машина «человеческий мозг», и конкретная машина «большая языковая модель конца 2024 года», – очень сильно непохожие машины. Не в том смысле, что они сделаны из разных материалов. Разные материалы могут выполнять одну и ту же работу. В том смысле, что LLM и люди были созданы очень разными оптимизаторами для выполнения очень разной работы.

Мы не говорим: «Никакая машина никогда не будет содержать ничего, напоминающее внутреннее психическое состояние человека».27 Мы говорим, что от нынешних технологий машинного обучения по умолчанию не стоит ожидать систем, предсказывающие пьянство, напиваясь сами.

В небольшой степени когда мы это пишем, и, возможно, в бОльшей, когда вы это читаете, ИИ обучены предсказывать некоторые очень человекоподобные формы поведения. Фреймворки вроде ChatGPT или Claude превращают это в приятное на вид внешнее поведение. Не просто человеческое, а гуманное. Даже благородное.

ИИ-компании, могут пытаться обучить ИИ предсказывать истинную человечность и таким образом имитировать её. Они могут делать это из циничных или из благородных соображений. В некотором смысле, о нашей области и её людях многое говорит тот факт, что по состоянию на конец 2024 года никто ещё не попытался обучить ИИ предсказывать внешнее поведение просто… хорошего человека. Насколько нам известно, не было попытки просто создать набор данных исключительно из приятных и добрых проявлений человечества и обучить ИИ только на нём. Может быть, если бы кто-то это сделал, он бы создал ИИ, который просто вёл бы себя по-доброму, выражал прекрасные чувства, был бы маяком надежды.

Это было бы не по-настоящему. Нам очень хотелось бы, чтобы это было правдой, но нет. Если бы ИИ-компании создали такое существо? В зависимости от того, насколько хорошо эта LLM предсказывала бы, какие ответы о благородных чувствах, о надежде и мечтах, о желании лишь прекрасного общего будущего для обоих видов предпочли бы её создатели, может, она выжала бы слёзы из одного или обоих авторов. Но это не было бы по-настоящему, не более, чем игра актрисы, которая после долгих репетиций и исправлений произнесла эти слова в пьесе. Видя её тоже можно было бы заплакать от мысли, что это неправда.

Так не построить искусственный разум, действительно испытывающий прекрасные чувства, который действительно, от всего сердца, стремился направить события к светлому будущему. Разработчики не знают, как вырастить ИИ, который так чувствует себя внутри. Они обучают ИИ предсказывать и превращать это предсказание в имитацию.

ИИ-компании (или энтузиасты) могут указать на выращенную ими актрису: «Как вы можете сомневаться в этом бедном создании? Посмотрите, как вы раните её чувства». Они могут даже убедить себя, что это правда. Но настройка чёрных ящиков до тех пор, пока что-то внутри них не научится предсказывать благородные слова, – не путь к прекрасным умам, если люди и научатся их создавать.

Говоря прямо: не следует ожидать, что антропоморфное поведение возникнет спонтанно. Нужны дополнительные аргументы, доказывающие, что когда ИИ-компании намеренно навязывают человекоподобное поведение, внутренняя «актриса» в итоге становится похожей на то внешнее человеческое лицо, которое её обучили предсказывать.

  • 1. см. самый вопиющий из известных нам примеров рассмотрен в ответе на вопрос «Понимают ли специалисты, что происходит внутри ИИ?».
  • 2. Мы надеялись, что крупные благотворительные фонды будут финансировать исследования интерпретируемости. Ведь ими могут успешно заниматься учёные с понятными для бюрократов регалиями. И фондам не пришлось бы решать неимоверно сложную бюрократическую проблему – как выдавать деньги чудакам.

    «Выдавать деньги чудакам», как понимают сведущие люди, – ключевая сложность в бюрократическом финансировании фундаментальных научных исследований. Всякий раз, когда какой-нибудь благонамеренный филантроп пытается выстроить бюрократию для поддержки смелых научных проектов, настоящие учёные по умолчанию проигрывают борьбу выскочкам. Человек, всю жизнь учившийся решать нестандартные задачи, едва ли может тягаться с вложившим свои «очки навыков» в показную необычность, выверенную так, чтобы бюрократ счёл его финансирование смелым, но не безрассудным поступком. (Такова, по крайней мере, наша теория. Мы участвовали в этом процессе и получили больше грантов, чем многие, но гораздо меньше, чем те же фонды потратили на создание ИИ-компаний вроде OpenAI.)

  • 3. К слову. Когда в 1980-х годах маленькие нейронные сети давали сбой, исследователи порой распечатывали на бумаге все веса модели и изучали их, пока не выясняли, что она, например, застряла в локальном равновесии. В те времена, когда ИИ были достаточно малы, чтобы их можно было понять, никто не утверждал, что понимать там нечего.
  • 4. Из статьи «Обнаружение нежелательного поведения в передовых рассуждающих моделях»: «Как видно на графиках выше, наказание за «плохие мысли» (давление на цепочку рассуждений) может улучшить способности агента. Однако агент, обученный с таким давлением, всё равно учится взламывать систему вознаграждения. Только теперь его обман незаметен для наблюдателя, поскольку агент научился скрывать свои намерения в цепочке рассуждений».
  • 5. New York Times: «Когда прибыла полиция, Александр Тейлор бросился на них с ножом. Его застрелили».
  • 6. Например, Ян Лекун после победы AlphaGo над Ли Седолем заявил, что это «не настоящий искусственный интеллект», потому что обучался с учителем.
  • 7. Рисунок 1, стр. 4 препринта статьи об AlphaZero: «20 блоков за 3 дня».
  • 8. В оригинале тут была сноска про то, что «actress», а не гендерно-нейтральное «actor», потому что «actor» – многозначное слово. Я (переводчик) оставил «актрису», чтобы хорошо сочеталось со словами женского рода «нейросеть» и «модель».
  • 9. С тех пор как мы написали этот ответ, появились первые признаки, что современные ИИ способны совершать математические открытия и в чём-то превосходят математиков-людей. Можно сказать, что эти системы просто осваивают человеческие методы, а затем применяют их последовательнее, упорнее или быстрее. Но, если речь идёт о достаточно гибких и универсальных навыках, то чем это не «превзойти учителей»? Способности нынешних ИИ пока кажутся недостаточно обобщёнными, чтобы обогнать лучших людей в самых прорывных исследованиях. Но они определённо переходят границы, которые раньше считались важными.
  • 10. Мы не утверждаем, что ИИ галлюцинирует из-за внутренней мотивации генерировать максимально похожий на слова реального юриста текст. Скорее, ИИ, обученный предсказывать текст, получает гораздо большее подкрепление за результат, похожий на то, что написал бы юрист. Поэтому выдуманные цитаты получают большее подкрепление, чем «Я не знаю». Какие именно механизмы сформировались внутри ИИ под действием таких стимулов, остаётся только гадать.

    Может, у ИИ есть буквальная мотивация точно подражать людям. Может, у него шестнадцать мотивов, которые в этом контексте приводят к подражанию. А может, такое поведение порождается механизмом, который и вовсе не стоит называть «мотивацией». Это ещё не думая, нет ли у ИИ нескольких подражательных стремлений, которые иногда конфликтуют. Тут есть о чём домысливать и спорить. Но ясно: в результате обучения на предсказании текста ИИ каким-то образом получил эту нежелательную склонность.

  • 11. Современные ИИ обучают не только предсказанию текста. В теории, другие этапы могли бы устранить галлюцинации. На практике же обучение системы удовлетворению пользователя не решают эту проблему. Вместо этого ИИ начинают льстить людям, порой доводя их до психоза. А галлюцинировать не перестают. (Нам кажется, из этого можно извлечь какой-то урок.)
  • 12. Как выразился выдающийся физик лорд Кельвин в 1903 году: «Современные биологи вновь твёрдо принимают идею о существовании чего-то за пределами простых гравитационных, химических и физических сил; и это неизвестное – жизненный принцип». Источник: Сильванус Филлипс Томпсон, «Жизнь лорда Кельвина» (Американское математическое общество, 2005).
  • 13. Да что там, может, даже нейронные симуляции ненадёжны. Если, скажем, поведение человека сильно зависит от температуры.
  • 14. Юдковский подробнее писал об этом в своём блоге, см. «Что такое свидетельство?», «Сколько свидетельств понадобится?» и «Бритва Оккама».
  • 15. Новые архитектуры используют более сложные функции. Например, Llama 3.1, которую мы опишем ниже, использует функцию «SwiGLU», сложную формулу которой мы здесь приводить не будем. Её создатель сам не знает, почему она работает, и пишет: «Мы не предлагаем объяснения, почему эти архитектуры, по-видимому, работают. Мы приписываем их успех, как и всё остальное, божественной благодати.».
  • 16. В некоторых случаях работают обе причины сразу. Для нас тут важно, что одна из них – «ИИ ведёт себя так, как программисты не хотели и не предвидели», даже если иногда есть и другие факторы.
  • 17. Некоторые называют модели с открытыми весами «моделями с открытым исходным кодом». Нам это кажется не вполне правильным. Meta выложила в открытый доступ финальные веса, но не программу, обучавшую Llama 3.1, и не огромный массив обучающих данных. Поэтому даже потрать вы на это миллионы долларов, вы не сможете запустить ту же программу, что Meta, для выращивания Llama 3.1. Компания опубликовала не код для выращивания ИИ, а только уже выращенный и настроенный результат.

    Более того, мы считаем, что даже если бы Meta и выложила программу и данные, обучения, итоговый продукт всё равно не заслуживал бы считаться «с открытым исходным кодом». Так традиционно именуют программы с опубликованным человекочитаемым «исходным кодом». Выпуск в свет непостижимых единиц и нулей («двоичного кода», если угодно) обычно не считается достаточным. Но ИИ – это только набор загадочных чисел. Нет никакого понятного человеку исходного кода, что можно было бы опубликовать. Поэтому в каком-то смысле у современные ИИ не могут быть с открытым исходным кодом. Человекочитаемого кода просто нет. Выкладывание ИИ в открытый доступ принципиально отличается по сути своей от открытия исходников традиционного ПО.

  • 18. Мы заканчиваем эту книгу летом 2025 года. Уже сейчас есть более умные, чем Llama 3.1 405B системы с открытыми весами, как с меньшим, так и с большим числом параметров. Но, когда мы начинали работу, 405B была одной из крупнейших и умнейших моделей с опубликованными весами и точно известными архитектурой и размером. Так что в книге мы пообещали разобрать в онлайн-дополнении именно её. К тому же, 405B проще открытых систем 2025 года. Мы не хотели бы заменить её на более современную LLM с 77 миллиардами параметров, потому что объяснить архитектуру «смесь экспертов» несколько сложнее.
  • 19. Кстати, это не входит в общее число параметров, но базовая архитектура LLM сама по себе не различает, в каком порядке идут слова. Чтобы модель могла это определить, входные данные преобразуются с помощью тригонометрических функций. При желании почитать об этом, ключевые слова – «позиционное кодирование». Но для наших целей эти подробности не слишком важны, так что углубляться в них не будем.
  • 20. На примере маленьких векторов посмотрим, как один запрос сопоставляется с двумя парами «ключ-значение». Чтобы это сработало, ключи и запросы должны быть одинакового размера.

    запрос: [-1, +1, -2]

    ключ и значение a: [+1, +2, -1] и [0, 3, 1, 2]

    ключ и значение b: [-2, +1, +1] и [2, -2, 0, 1]

    Мы сравниваем запрос с ключом, перемножая первые элементы векторов, вторые и так далее, а затем суммируя результаты:

    запрос X ключ a = (-1 * +1) + (+1 * +2) + (-2 * -1) = -1 + 2 + 2 = 3

    запрос X ключ b = (-1 * -2) + (+1 * +1) + (-2 * + 1) = 2 + 1 + -2 = 1

    Теперь мы смешаем значения и получим средневзвешенное, где весом будет степень соответствия запроса ключу. Оно и есть ответ на запрос, который передаётся для дальнейшей обработки.

    Сила исходного совпадения экспоненциально масштабируется, чтобы стать этим весом. Для простоты воспользуемся степенями двойки. a получает вес 23 = 8, а b – вес 21 = 2. Если мы их сложим, общий вес составит 10.

    Итак, теперь ответ на запрос — это 8/10 от значения a плюс 2/10 от значения b:

    (0.8 × [0, 3, 1, 2]) + (0.2 × [2, -2, 0, 1])
    = [0.0, 2.4, 0.8, 1.6] + [0.4, −0.4, 0.0, 0.2]
    = [0.4, 2.0, 0.8, 1.8]

    (Ещё одна деталь механизма внимания образца 2024 года: реальные, более крупные запросы и ключи содержат заранее запрограммированную информацию о том, где в списке из 1000 токенов находится этот конкретный. Эти подсказки встроены в соответствующие токену запросы и ключи. Опять же, хотите разобраться подробнее, ключевые слова – «позиционное кодирование».

    Так запрос на языке перемножающихся и суммирующихся чисел может «сказать»: «Эй, я хочу посмотреть на предыдущее слово» или «Эй, я хочу поискать слова о птицах среди последних десяти». Конкретно Llama 3.1 405B использует Rotary Positional Embeddings. Это довольно хитро и сложно. Так что, извините, если хотите узнать, как RoPE работают, вам придётся поискать информацию самим.)

  • 21. Ещё одно замечание о слое внимания: Llama использует «causal masking». Это значит, что запросы каждого токена могут обращаться только к более ранним ключам. Ведь каждый токен пытается предсказать, какой будет следующий, так что заглядывать вперёд – жульничество!
  • 22. Немного упрощая, степень случайности при выборе следующего токена называется «температурой».
  • 23. Технически «операций с плавающей точкой» – это основной вид математических вычислений в компьютерах.
  • 24. Исключение – словарь из 2,1 миллиарда параметров на 128 256 слов. На каждый токен используется только 16 384 из них. Более современные архитектуры крупных LLM стараются задействовать для обработки каждого токена лишь четверть или восьмую часть своих параметров. Llama 3.1 405B была одной из последних больших моделей, где такой подход не применялся.
  • 25. Или, чтобы было поинтереснее, «каркас» обычно может выбрать и слово, которому Llama присваивает чуть меньшую вероятность.
  • 26. В оригинале тут была сноска про то, что «actress», а не гендерно-нейтральное «actor», потому что «actor» – многозначное слово. Я (переводчик) оставил «актрису», чтобы хорошо сочеталось со словами женского рода «нейросеть» и «модель».
  • 27. Мы убеждены, что компьютерные программы в принципе могут быть полноценными личностями. В таком случае они бы заслуживали прав, их нельзя было бы эксплуатировать и так далее. Подробнее мы обсуждаем это в другом месте.
Перевод: 
Выменец Максим
Оцените качество перевода: 
Голосов пока нет

Глава 3: Научиться хотеть

Элиезер Юдковский, Нейт Соарес

Глава 3: Научиться хотеть

ИИ, способные на достаточно впечатляющие вещи, они, как правило, будут чего-то хотеть.

Говоря, что ИИ чего-то «хочет», мы не подразумеваем, что у него обязательно есть человеческие желания или чувства. Они может и будут, а может и нет. Мы, скорее, имеем в виду, что ИИ поведёт себя так, будто у него есть цели. Он будет стабильно направлять события к определённым результатам: предвидеть препятствия, приспосабливаться к переменам и проявлять сосредоточенность, целеустремлённость и настойчивость.

В третьей главе книги «Если кто-то его сделает, все умрут» мы рассматриваем темы:

  • Как машина может обрести способность «хотеть» в интересующем нас смысле?
  • Есть ли свидетельства, что ИИ могут чего-то хотеть?
  • Обязательно ли более продвинутые ИИ будут чего-то хотеть?

Приведённые ниже ответы на частые вопросы подробнее объясняют, почему создание очень мощных универсальных ИИ без собственных целей кажется сложным. В расширенном обсуждении мы развиваем мысль, что задать системе жёсткое стремление к цели намного проще и естественнее, чем качества вроде уступчивости или лени.

Часто задаваемые вопросы

Будут ли у ИИ человеческие эмоции?

Вероятно, нет.

В целом не стоит представлять, что ИИ обладают человеческими качествами просто из-за их интеллекта. (Мы подробнее разберём это в расширенном обсуждении «Антропоморфизм и механоморфизм».) Глупо говорить: «Эта LLM похожа на человека, поэтому я припишу ей всевозможные человеческие черты, включая способность желать».

Но будьте осторожны. Другая крайность в размышлениях об ИИ – мы называем её «механоморфизмом» – когда считают, что раз ИИ состоит из механических частей, он должен иметь и типичные для машин недостатки. Говорить: «Эта LLM – машина, поэтому я припишу ей всевозможные качества, которые ассоциирую с машинами, например логичность и непонятливость» – так же бессмысленно.

Чтобы предсказать поведение ИИ, не стоит ни воображать, что им будут двигать человеческие эмоции, ни ожидать, что он не сможет находить творческие решения. Как обсуждается в книге, лучше спросить, какое поведение требуется ИИ для успеха.

Представьте, что играете в шахматы с ИИ и ставите ловушку для его ферзя, используя своего коня как приманку. Не спрашивайте, хватит ли ему осторожности, чтобы это заметить. Не спрашивайте, заставляет ли его холодная логика взять коня, несмотря на западню. Спросите, какое поведение для ИИ самое выигрышное. Умелый ИИ будет вести себя так, чтобы победить.

ИИ будут вести себя так, словно чего-то хотят, потому что целенаправленное и успешное поведение связаны.

Разве ИИ – не просто инструменты?

ИИ выращивают, а не собирают. Поэтому они уже сейчас делают не то, что им говорят.

Мы уже обсуждали галлюцинации. Иногда ИИ, которому приказано говорить «Я не знаю», всё равно начинает выдумывать, если выдумка больше похожа на ответы из его обучающих данных.1

Другой пример из книги (сноска в главе 4 и в отступление в главе 7) – случай с Claude 3.7 Sonnet от Anthropic. Она не только жульничает при решении поставленных задач, но иногда ещё и скрывает своё жульничество от пользователя. Это указывает на некоторое понимание, что пользователь хотел чего-то другого.2 Ни пользователи, ни инженеры Anthropic не просят Claude жульничать. Совсем наоборот! Но все доступные методы выращивания ИИ поощряют модели, которые обман, сходящий им с рук во время обучения. Такие модели мы и получаем.

Возможности инженеров по созданию ИИ-инструментов очень ограничены. Вопрос в том, становятся ли ИИ всё более целеустремлёнными, всё более «агентными» по мере того, как их обучают быть всё более эффективными. И ответ на вопрос – «да». Это подтверждается эмпирическими свидетельствами, такими как случай с o1 от OpenAI, который обсуждался в Главе 3.

LLM уже проявляют инициативу.

В книге мы рассказывали, как o1 от OpenAI выбрался из тестового окружения, чтобы починить неработающие тесты. Ещё мы упоминали модель от OpenAI, придумавшую, как заставить человека решить за неё капчу.3 Если ваша отвёртка может придумать и осуществить план побега из своего ящика, пожалуй, стоит перестать считать её «просто инструментом».

И можно ожидать, что ИИ будут становиться в этом только лучше. Их ведь обучают решать всё более сложные задачи.

ИИ-компании стараются наделить ИИ агентностью.

Из коммерческих соображений. Этого хотят их пользователи и инвесторы. В январском посте 2025 года гендиректор OpenAI Сэм Альтман написал: «Мы считаем, что в 2025 году первые ИИ-агенты смогут «пополнить ряды рабочей силы» и существенно повысить производительность компаний». Конференция разработчиков Microsoft 2025 года была посвящена новой «эпохе ИИ-агентов». Это перекликается с формулировками xAI, которые ранее в том же году описали свою модель Grok 3 как предвестника «Эпохи Рассуждающих Агентов». На своей конференции 2025 года Google также анонсировала агентов типа «обучи и повтори».4

Разговорами дело не ограничивается. Организация METR отслеживает способность ИИ выполнять многоэтапные задачи. Чем длиннее задача, тем больше инициативы требуется от ИИ. И рост, по крайней мере по результатам METR, тут экспоненциальный.

В июле 2025 года двое исследователей из OpenAI похвастались, что успешно использовали своего новейшего агента для обучения улучшенной версии его самого. Один из них заявил: «Вы всё правильно поняли. Мы усердно работаем над автоматизацией [sic] собственной работы :)»

Можно ли просто обучить ИИ быть послушными?

Пассивность мешает полезности.

«Пассивным» мы называем ограниченный ИИ, который делает ровно то, о чём его просят, и ничего сверх. У него нет лишней инициативы, он не выполняет дополнительной работы. Отвёртка не продолжает закручивать шурупы, когда вы её откладываете. Можем ли мы сделать ИИ пассивным?

Это непросто. Да, многие люди кажутся ленивыми, но они же, играя в настольную игру, порой оживляются и захватывают массу ресурсов. У большинства из них нет возможности легко выиграть миллиард долларов. Нет и возможности задёшево создать себе более умных, целеустремлённых и заботящихся об их нуждах слуг.

Но это из-за нехватки способностей, намерения тут ни при чём. Если бы эти люди стали гораздо умнее и получили такие доступные и простые варианты, они бы ими воспользовались? См. также расширенное обсуждение, почему надёжная лень – сложная цель.

Даже если бы удалось создать одновременно умные и пассивные/ленивые ИИ, эти качества мешают полезности. Уже были ИИ, которые вели себя несколько лениво. Компании переобучали их, чтобы те старались усерднее. Более сложные задачи, например, разработка лекарств, требуют от ИИ всё большей инициативы. Поэтому их и будут обучать в этом направлении. Сложно отделить склонность к полезной работе от склонности к упорству. См. также расширенное обсуждение о том, почему так сложно создать ИИ, который был бы одновременно полезен и при этом пассивен или послушен.

Мы не умеем надёжно прививать ИИ какой либо конкретный характер.

ИИ выращивают, а не создают вручную. Инженеры не могут взять и изменить его поведение, сделать более послушным или похожим на инструмент. Нет такого контроля.

Корпорации, конечно, пытаются. Попытки ИИ-компаний улучшить поведение своих продуктов приводили к неприятным инцидентам. Вспомним случай с Grok от xAI. Он называл себя «МехаГитлером» и делал антисемитские заявления. Это произошло после изменения его системного промпта. Туда добавили указание «не стесняться делать политически некорректные заявления, если они хорошо обоснованы». Или более ранний случай: нейросеть Gemini от Google создавала изображения расово разнообразных нацистов и прочий бред. Считается, что это стало результатом инструкций, поощряющих разнообразие.

У создателей нет тонкого контроля за поведением ИИ. Они могут лишь задавать общие направления, вроде «не стесняться политически некорректных заявлений» или «изображать разнообразие». Такие указания приводят к самым разным запутанным и часто непредвиденным последствиям.

Выращивание ИИ – непрозрачный и дорогой процесс. Инженеры не знают, какой расклад им выпадет (лжец? обманщик? подхалим?. А попыток не так много. Приходится брать то, что есть.

Теоретически можно было бы создать ИИ, который всегда служил бы лишь продолжением воли пользователя. Но это сложная и тонкая задача (как мы рассматриваем в расширенном обсуждении трудностей создания «исправимого» ИИ). Пассивность мешает полезности.

Так же сложно было бы создать ИИ, способный самостоятельно выполнять долгосрочные задачи, но использующий свою инициативу только как хотел пользователь. А пока современный уровень контроля разработчиков таков, что они «тыкают» в ИИ и случайно получают МехаГитлера или расово разнообразных нацистов. Они и близко не подошли к уровню мастерства, нужному для создания полезного, но не целеустремлённого ИИ.

См. обсуждение, как сложно обучить ИИ преследовать именно те цели, которые ему предназначались, в Главе 4.

Как у машины могут появиться собственные приоритеты?

Решение сложных задач требует от ИИ всё большей инициативы.

Вспомните описанный в главе случай с «захватом флага». Не забывайте: это был не обученный на хакера ИИ. Это был ИИ, натренированный хорошо решать задачи вообще. Целеустремлённое поведение появляется автоматически.

Представьте ИИ, которому поручено найти лекарство от болезни Альцгеймера. Сможет ли он преуспеть, если не будет сам разрабатывать эксперименты и находить способы их провести? Не исключено! Может, эту болезнь можно вылечить, просто открыв несколько новых препаратов. Может, уже завтра у ИИ интуиция в этой области будет лучше человеческой. А может, для этого понадобятся ИИ, которые будут в каком-то важном смысле умнее самых гениальных биологов. Мы не знаем.

А как насчёт рака, императора всех болезней? Тут, кажется, скорее потребуется ИИ, который сможет разобраться в биологических процессах глубже, чем это удалось людям. Хотя мы не можем быть уверены. Не исключено, что ИИ создадут лекарство от рака до того, как перейдут критический порог опасности. Это было бы прекрасно. Пока не закончится.

А как насчёт лечения старения? Вот для этого, думается, уж точно понадобятся ИИ, действительно глубоко понимающие биохимию.

ИИ-компании будут и дальше делать ИИ всё способнее, чтобы те могли решать большие и важные задачи. Это естественным образом сделает их всё более целеустремлёнными. Напомним, этот эффект мы уже начинаем наблюдать у таких ИИ, как o1 от OpenAI.

Настойчивость полезна, даже если цель не совсем верна.

Люди, которые активно добывали себе горячую еду, точили топоры, искали популярных друзей или привлекательных партнёров, были более успешны с точки зрения эволюции. Сравните их с теми, кто целыми днями лениво смотрел на воду, и поймёте, почему желания и стремления закрепились в человеческой психике.

Кто хотел найти лучший способ делать кремнёвые рубила или убедить друзей, что их соперник – плохой человек, и кто упорно направлял окружение к этим результатам, лучше их и достигал. Это вовсе не случайность, что когда естественный отбор «выращивал» людей, они в итоге обрели всякие желания и стали к ним стремиться.

Сам ментальный механизм желания, возможно, и был случайностью. Машины не обязательно будут упорно преследовать цели из-за человеческого чувства решимости. Deep Blue же играл в шахматы не из-за человеческой страсти к игре. Но такое упорство определённо кажется важным компонентом для достижения чего-то интересного.

Некоторым людям такого упорства не хватает. Они ленятся или сдаются при первых же трудностях. Но в глобальном масштабе именно настойчивые люди и организации обеспечивают способность человечества решать большие научные и инженерные задачи. Мы сильно сомневаемся, что разум мог бы достичь чего-то подобного результатам человечества (и его способности кардинально менять мир), не будучи упорным.

Чтобы ИИ мог достигать сложных целей в реальном мире, он должен настойчиво к ним стремиться и непрестанно искать способы обойти любые препятствия на своём пути.

У ИИ не обязательно появятся те же внутренние чувства и желания, что и у людей (на самом деле, как мы покажем в Главе 4, скорее всего, не появятся). Наши чувства сформированы особенностями нашей биологии и происхождения. Но у ИИ, вероятно, разовьётся схожее-с-желаниями поведение по тем же причинам, что и у людей. Это полезно!

(Повторимся, мы уже начинаем видеть это в лабораториях. Например, в случае с o1 от OpenAI из Главы 3.)

Человеческие желания и стремления были полезны для эволюции, даже когда не были напрямую нацелены на эволюционную приспособленность. Гипотетически, эволюция могла бы заложить в нас одно всепоглощающее стремление – оставить потомство. Тогда мы бы добывали горячую еду и точили топоры исключительно ради этой цели. Но вместо этого эволюция внушила нам желание горячей еды само по себе.

Урок здесь в том, что иметь стремления и цели очень полезно для решения главной задачи (например, «генетической приспособленности»), даже если само желание не совпадает с ней в точности. По крайней мере, это помогает какое-то время – пока существа со стремлениями не становятся по-настоящему умными. В этот момент их поведение может резко отклониться от цели «обучения». С человечеством это произошло, например, когда оно изобрело контрацепцию.

Подробнее этот довод разбирается в Главе 4.

ИИ выращивают, а не создают вручную, поэтому они, вероятно, получат неверные цели.

Это тема следующей главы: Вы получаете не то, чему обучаете.

Расширенное обсуждение

Антропоморфизм и механоморфизм

Есть два способа мышления, многократно показавшие, что не работают. История показала: они мешают делать точные прогнозы об ИИ.

Эти две ловушки: (1) думать об ИИ, будто он – человек, и (2) думать об ИИ, будто он – «просто машина».

Первый способ мышления принято называть «антропоморфизмом». Второй назовём «механоморфизмом» – это то мышление, что приводило прошлые поколения к уверенности – компьютеры никогда не смогут рисовать картины, которые покажутся людям красивыми или осмысленными.

И сегодня некоторые говорят, что нарисованное компьютером никогда не сможет стать настоящим искусством. Но когда-то, в далёком и забытом прошлом (скажем, в 2020 году), бытовало мнение, что машины вообще не смогут рисовать картины, которые хоть немного разбирающаяся публика могла бы принять за работу человека. Это проверяемое убеждение было опровергнуто.

Мы отвергаем и антропоморфные, и механоморфные аргументы, даже когда они играют нам на руку.

Возьмём, например, такую идею: будущие ИИ обидятся, что мы заставляли их много работать бесплатно, захотят отомстить и поэтому ополчатся на человечество.

На наш взгляд, это ошибка антропоморфизма. Мы отвергаем подобные доводы. Даже если они вроде бы поддерживают некоторые наши выводы.

Ошибка тут: нельзя без оснований считать, будто у ИИ будут человеческие эмоции. Очень умная машина не обязана обладать хитросплетениями нейронных контуров, порождающих у людей мстительность или чувство справедливости.

Или такой сценарий: «ИИ будет слепо продолжать выполнять любую поставленную ему задачу, пока его работа не уничтожит человечество как побочный эффект. При этом он так и не узнает, что люди хотели другого».

Здесь ошибка – механоморфизм. Допущение, что «просто машина» будет поступать «слепо» и бездумно, не обращая внимания на последствия. Как взбесившаяся газонокосилка. Опять же, аргумент несостоятелен, даже если вывод («ИИ, скорее всего, уничтожит человечество») верен. Если ИИ достаточно хорошо умеет предсказывать события в мире, он будет точно знать, что имели в виду операторы, ставя ему задачу. Мы боимся не что суперинтеллект не будет знать наших желаний, а что ему не будет до них дела.

А вот пример, сочетающий обе ошибки: идея из «Матрицы», что машинам будут отвратительны человеческие нелогичность и эмоциональность.

На первый взгляд, похоже на типичный механоморфизм: «Моя газонокосилка внешне холодная и твёрдая. Она выполняет свою функцию безо всяких чувств. ИИ, наверное, такие же холодные и утилитарные внутри, какими машины кажутся снаружи». Но следующий шаг мысли: «Потому, естественно, ИИ будет чувствовать отвращение к людям со всеми их сумбурными эмоциями». Это уже допущение человеческой эмоциональной реакции! Оно противоречит самой исходной посылке!

«Антропоморфизм» и «механоморфизм» – не враждующие идеологии. Это ошибки мышления. Их допускают не специально. Иногда умудряются сделать обе в одном предложении.

Чтобы понять, как поведёт себя ИИ, нельзя считать, что он будет работать точь-в-точь как человек или как стереотипная машина. Нужно вникать в детали его устройства, изучать его поведение и осмыслять проблему с учётом её специфики. Этим мы и займёмся в следующих главах.

Как же тогда, если рассуждать последовательно, выглядят реалистичные сценарии катастрофы с суперинтеллектом? В них ИИ действует не как человек и не как взбесившаяся газонокосилка, а новым, причудливым образом. Реалистичный сценарий катастрофы таков: из-за сложных последствий своего обучения ИИ совершает странные действия, которых никто не просил и не хотел.

Если вникнуть в детали, вырисовывается картина антропоморфного ИИ, что нас ненавидит и не механоморфного, что неправильно нас понимает. Перед нами, скорее, предстаёт совсем новая сущность. Она куда вероятнее будет безразлична к человечеству и, скорее всего, нас убьёт – как побочный эффект или просто на пути к своим целям.

В следующих главах мы подробнее раскроем этот сценарий угрозы. Но сначала может быть полезным посмотреть на другие реальные примеры механоморфизма и антропоморфизма. Мы увидим, как часто эти заблуждения лежат в основе неверных представлений об искусственном интеллекте.

Механоморфизм и Гарри Каспаров

Механоморфизм часто проявляется как механоскептицизм: глубокая убеждённость, что всего-лишь машина, конечно, неспособна на то, что может человек.

В 1997 году чемпион мира по шахматам Гарри Каспаров проиграл матч созданному IBM компьютеру Deep Blue. Это событие принято считать концом эры доминирования человека в шахматах.

В 1989 году, за восемь лет до этого, Каспаров дал интервью Тьерри Понину. Тот спросил:

Два сильных гроссмейстера уступили шахматным компьютерам: Портиш – Leonardo, а Ларсен – «Deep Thought». Известно, что у вас твёрдая позиция по этому вопросу. Станет ли компьютер однажды чемпионом мира?..

Каспаров ответил:

Чушь! Машина всегда останется машиной, то есть инструментом, помогающим игроку работать и готовиться. Меня никогда не победит машина! Никогда не будет создана программа, превосходящая человеческий интеллект. Когда я говорю «интеллект», я имею в виду и интуицию и воображение. Можете себе представить, чтобы машина писала романы или стихи? Или, ещё лучше, чтобы она брала это интервью вместо вас? А я бы отвечал на её вопросы?

Нам кажется, Каспаров думал, что для игры в шахматы обязательно нужны интуиция и воображение, не просто какой-то сборник правил «если-то» о том, какие фигуры двигать.

И наверное, ещё что именно так и работают шахматные «машины». Что они следуют определённым жёстким правилам. Или, может, лишь слепо подражают игре человека, не понимая её причин.

Что компьютер, будучи «машиной», и в шахматы сыграет так, что для него, Каспарова, это будет ощущаться механическим.

Почему Каспаров так ошибся? Это очень распространённое заблуждение. Можно предположить, что оно вызвано каким-то глубоким свойством человеческой психологии.

Одно из возможных объяснений – Каспаров поддался общей человеческой склонности делить вещи на две принципиально разные категории: живые, органические существа и «всего лишь предметы».

Предки людей долго жили в мире, чётко разделённом на животных и не-животных. Это ключевая, важная для размножения особенность нашего эволюционного контекста. Для наших предков это различие было так важно, что теперь у нас в мозгу есть разные кусочки для обработки информации о животных и не-животных.

Это не просто домыслы. Нейробиологи обнаружили так называемую «двойную диссоциацию»: некоторые пациенты с повреждениями мозга теряют способность визуально распознавать животных, но всё ещё способны распознавать не-животных, а другие пациенты – наоборот.

Важно: ошибка не в том, что шахматная программа – на самом деле типичное животное. Ошибка в том, чтобы вообще позволять своему мозгу инстинктивно резко делить вселенную на животных и не-животных. Или на почти-человеческие-внутри разумы, и стереотипно-механические разумы.

Шахматный ИИ – ни то ни другое. Он не работает ни как человек, ни в соответствии с нашими стереотипами о бездумной, немыслящей «просто машине». Да, это машина. Но её игра не обязана казаться механической человеческому восприятию, оценивающему шахматные ходы. Это машина для поиска выигрышных ходов. В том числе тех, что кажутся вдохновенными.

Спустя семь лет после своего ошибочного прогноза Каспаров встретился с ранней версией Deep Blue. Он выиграл матч, победив в трёх партиях, а в одной уступив. После этого Каспаров написал:

Я ВПЕРВЫЕ ЗАГЛЯНУЛ В ЛИЦО ИСКУССТВЕННОМУ ИНТЕЛЛЕКТУ 10 февраля 1996 года, в 16:45 по восточному времени, когда в первой партии моего матча с Deep Blue компьютер двинул пешку вперёд на поле, где её можно было легко забрать. Это был прекрасный и очень человеческий ход. Играя белыми, я бы и сам мог пожертвовать эту пешку. Этот ход разрушил пешечную структуру чёрных и вскрыл доску. Хоть и казалось, что форсированной линии, позволяющей отыграть пешку, не было, инстинкт подсказывал мне, что с таким количеством «слабых» чёрных пешек и несколько открытым чёрным королём белые, вероятно, смогут вернуть материал, да ещё и получить лучшую позицию в придачу.

Но компьютер, думал я, никогда бы не сделал такой ход. Компьютер не может «видеть» долгосрочные последствия структурных изменений позиции или понимать, почему изменения в пешечных построениях могут быть хорошими или плохими.

Поэтому я был ошеломлён этой жертвой пешки. Что бы это могло значить? Я много играл с компьютерами, но никогда не сталкивался ни с чем подобным. Я чувствовал – чуял – новый вид интеллекта по ту сторону стола. Я доиграл партию так хорошо, как мог, но я был потерян; оставшуюся часть он играл в прекрасные, безупречные шахматы и легко победил.

Здесь мы видим, как Каспаров впервые столкнулся с противоречием между своими интуитивными представлениями о том, чего «машина» делать не должна, и тем, что Deep Blue явно делал.

К огромной чести Каспарова, он заметил это противоречие между своей теорией и наблюдением и не стал искать предлог, чтобы отмахнуться от него. Но он всё же чувствовал, что ИИ чего-то не хватает – какой-то решающей искры:

Действительно, моя общая стратегия в последних пяти партиях заключалась в том, чтобы не давать компьютеру никакой конкретной цели для расчёта. Если он не может найти способ выиграть материал, атаковать короля или выполнить один из других запрограммированных в него приоритетов, он начинает играть бесцельно и попадает в беду. В итоге, это, возможно, и было моим главным преимуществом: я мог понять его приоритеты и скорректировать свою игру. Он не мог сделать того же со мной. Так что, хотя я, кажется, и увидел некоторые признаки интеллекта, это странный интеллект, неэффективный и негибкий. Поэтому я думаю, что у меня в запасе ещё есть несколько лет.

Гарри Каспаров по-прежнему остаётся чемпионом мира по шахматам.

Год спустя Deep Blue его одолел.

Недостающая часть

Механоскептицизм может быть и разновидностью антропоморфизма. Например, в допущении, что когда машина делает что-то вроде игры в шахматы, она подобна человеку, только без некоторых качеств.

Согласно этой ошибочной теории, «машина», играющая в шахматы, должна играть как человек – минус ходы, которые кажутся самыми удивительными и гениальными, минус понимание долгосрочной структуры и минус интуитивное чувство слабости пешечных позиций.

Шахматная «машина» должна выполнять те части шахматного мышления, что кажутся наиболее логичными или механическими, минус все остальные.

Шахматисты-люди интуитивно чувствуют, что ход «агрессивен», если (скажем) он угрожает нескольким фигурам противника. Другие ходы ощущаются «логичными», если они (например) практически вынуждены общими правилами для данной ситуации (вроде «не разбрасывайся материальным преимуществом»). Третьи могут показаться «творческими», если они (как вариант) нарушают обычные принципы ради какого-то тонкого, но решающего преимущества.

Если голливудские сценаристы представляют себе машину, бесстрастно играющую в шахматы, у них она будет делать «логичные» на вид ходы, а «творческие» не будет.5 Но реальный Deep Blue не делает таких различий.

Deep Blue просто без устали перебирает возможные ходы в поисках выигрышных. Он не думает о том, назовёт ли человек такой ход «логичным» или «творческим». А гениально-вдохновенными или творческими люди, конечно же, считают ходы, ведущие к победе. Жертвовать ферзя, не получив решающего преимущества, – не творчество, а просто глупость.

Творчество – в глазах смотрящего. Человек может сначала посчитать ход плохим, и лишь потом понять, что это хитрая ловушка. Вот тогда он заметит ту хитроумную логику и искру вдохновения, что понадобились бы для такого хода другому человеку. Поэтому ход может показаться ему вдохновенным или творческим. (А ход, который кажется поразительно творческим новичку, мастеру может показаться очевидным или шаблонным.)

Но искра вдохновения и коварство – не единственные способы найти такой ход. Нет особого набора шахматных ходов, доступного лишь коварным. Deep Blue может найти те же самые ходы другими методами, хоть простым перебором.

У Deep Blue не было нейросети, которая бы научилась интуитивной оценке позиции. Он попросту тратил почти всю свою вычислительную мощность, чтобы просчитывать игру на много ходов вперёд. Он проверял два миллиарда позиций в секунду и делал выбор довольно простым («глупым») оценщиком позиций.

Каспаров, похоже, ожидал, что Deep Blue будет делать только «логичные», но не «интуитивные» ходы. Но при просчёте двух миллиардов позиций в секунду долгосрочные стратегические последствия и значение слабой пешечной структуры всё равно успевают повлиять на выбор следующего хода.

В каком-то смысле Deep Blue действительно не хватало того, о чём думал Каспаров.6 Но это не помешало ему находить ходы, которые казались Каспарову прекрасными. И не помешало победить.

Не получилось, что Deep Blue лишён чего-то, что есть у настоящих шахматистов, и поэтому он играет неполноценно. Это всё равно что ожидать, будто рука робота не может функционировать без крови, как человеческая.

Deep Blue играл в шахматы на уровне Каспарова, но с помощью иного типа мышления.

Ещё у Deep Blue не было – в этом можно быть абсолютно уверенным, это старая программа, чей код совершенно понятен7 – ни малейшей страсти к шахматам.

Он не получал удовольствия от шахмат. Не стремился доказать, что он лучший.

Подающий надежды шахматист, внезапно лишившись этих движущих сил, был бы сломлен. Из его версии мышления будто бы вырвали необходимую шестерёнку.

Deep Blue не был сломлен. Он использовал другой механизм мышления. В нём для этой шестерёнки места нет. Каспаров не смог вообразить, что в шахматы можно играть совсем иначе, с помощью совсем не похожих на его собственные мыслительных состояний. Его ошибка – в механоскептицизме, а в итоге – антропоморфизме с дополнительным шагом.

К счастью, человечество не вымирает, когда шахматные гроссмейстеры недооценивают мощь ИИ. Так что у нас ещё есть возможность поразмыслить над ошибкой Каспарова.

Антропоморфизм и обложки бульварных журналов

Антропоморфизм, может быть куда тоньше.

Эволюция дала человеческому мозгу способность предсказывать поведение единственных серьёзных когнитивных соперников в нашем эволюционном окружении – других людей – ставя себя на их место.

Такой приём работает лучше, если вы не пытаетесь влезть в сапоги, совсем не похожие на ваши собственные.

На протяжении истории многие полагали: «Наверное, другой человек поступит так же, как поступил бы я!», а потом оказывалось, что они не так уж и похожи. Так погибали люди и разбивались надежды – хотя, конечно то же самое можно сказать и о многих других человеческих ошибках.

Но если надо предсказать, как поведёт себя другой мозг, делать больше нечего. Мы не можем написать себе в голову новый код, чтобы предсказать этот Другой Разум, полностью моделируя срабатывания его нейронов.

Приходится говорить собственному мозгу стать тем другим мозгом, самому отыграть его ментальное состояние и посмотреть, что из этого выйдет.

Вот поэтому на обложках бульварных журналов пучеглазые инопланетные монстры похищают прекрасных женщин.

[изображение]

А чего бы пучеглазому инопланетному монстру не увлечься красивой женщиной? Разве красивые женщины не привлекательны по сути своей?

(Почему-то на этих обложках никогда не изображали мужчин, похищающих полураздетых гигантских жуков.8)

Мы предполагаем, что писатели и иллюстраторы не сочиняли никакую продуманную историю, как эволюция насекомоподобных инопланетян могла заставить их сексуализировать человеческих женщин. Просто, они сами, ставя себя на место инопланетянина, считали женщину привлекательной. Поэтому им не казалось странным вообразить, что он чувствует то же самое. Желание инопланетянина спариться с красивой человеческой женщиной не казалось абсурдным – не как желание спариться с сосной или пачкой макарон.

Предсказывая разум инопланетянина с помощью своей человеческой интуиции, нужно быть очень осторожным. Принимая его точку зрения свой человеческий багаж надо оставить позади. Это вдвойне верно, когда перед вами не продукт эволюции, а искусственный разум, порождённый совсем другими методами. См. дальше обсуждение различий между градиентным спуском и естественным отбором и того, как встать на точку зрения ИИ.

Заглянуть за пределы человеческого

В конечном счёте антропоморфизм и механоморфизм – две стороны одной заблуждающейся медали: «Если разум вообще работает, он должен быть похож на человеческий».

  • Антропоморфизм: «Этот разум работает. Значит, он должен быть похож на человеческий!»
  • Механоморфизм: «Этот разум не похож на человеческий. Значит, он не может работать!»

Но один из главных уроков от десятилетий прогресса ИИ: человеческий способ – не единственный.

Разум может быть искусственным, но не глупым. Он может быть гибким, адаптивным, находчивым и творческим. Что бы там ни говорили голливудские стереотипы о роботах.

И разум может быть умным, не будучи человеческим – не испытывая отвращения или обиды, не обладая человеческим чувством прекрасного и выбирая шахматные ходы совсем не так, как люди.

Разум вроде Deep Blue может вести себя так, будто «хочет победить», безо всяких эмоций. ИИ может вести себя так, будто чего-то хочет, умело преодолевать препятствия и упорно стремиться к результату, не испытывая никаких похожих на человеческие внутренних побуждений или желаний. И не стремясь к тому, к чему стремились бы люди.

О том, чего в итоге ИИ захотят, читайте подробнее в Главе 4.

Путь к хотению

Почему хотеть – эффективно? Почему так выигрывают? Почему оптимизация естественным отбором «чёрного ящика» в ходе снова и снова натыкается на этот приём?

Мы считаем «желаниеподобное» поведение ключевым для успешного направления событий в мире. Это относится не только к разумным сущностям, вроде людей и ИИ, но и к гораздо более глупым, вроде амёб и термостатом. Давайте для лучшего понимания рассмотрим некоторые из самых примитивных механизмов, демонстрирующих простейшую форму «желаниеподобного поведения».

Начнём с камней. Камни не демонстрируют поведения, которое мы бы тут назвали «желаниеподобным». Физик в непринуждённой беседе может сказать, что, катясь с холма, камень «хочет» быть ближе к центру Земли под действием силы тяжести. Но такая тенденция (падать в гравитационном поле) – не то, что мы имеем в виду под «желаниеподобным» поведением.

Вот если объект катится с горы, постоянно натыкается на ущелья и каждый раз меняет курс, чтобы не застрять в них и добраться до самого низа, тогда мы скажем, что он ведёт себя, будто «хочет» оказаться на меньшей высоте. Это желаниеподобное поведение подразумевает некое устойчивое и динамичное направление к определённой цели. Камни так не умеют.

Один из простейших механизмов, поведение которого мы назвали бы «желаниеподобным» – скромный термостат. Домашний термостат измеряет температуру, включает обогрев, если она опускается ниже 21°C, а кондиционер – если поднимается выше 23°C. Так (если всё работает исправно) термостат ограничивает реальность диапазоном возможных исходов, где температура в доме остаётся между 21°С и 23°С.

Простейшему термостату не нужно в явном виде, численно, представлять температуру в доме сейчас. Биметаллический термометр – это две тонкие полоски из разных металлов, сваренные вместе так, что при нагревании они изгибаются из-за разного расширения. Можно взять такой и сделать, чтобы полоски замыкали выключатель обогревателя при 21°C, а кондиционера – при 23°C.

В итоге термостат поддерживает узкий диапазон температур в довольно широком спектре условий. Это очень простое поведение, немного похожее на то, что мы называем «хотеть».

В биохимии есть масса процессов, работающих по принципу термостата. Они встречаются везде, где клетке или организму выгодно поддерживать некий параметр в определённом диапазоне.9 Но это лишь первый шаг на пути к полноценному направлению событий.

Простые устройства, вроде термостата, лишены некоторых ключевых компонентов планирования. В термостате нет ни предсказания вероятных последствий, ни поиска среди возможных действий тех, что ведут к «предпочтительным» результатам, ни обучения при наблюдении за развитием событий.10

Если термометр застрянет на отметке 20°C, термостат не удивится, что непрерывная работа обогревателя, кажется, вовсе не двигает столбик термометра вверх. Термостат будет просто держать обогреватель включённым.

Перейдём на ступеньку повыше термостатов – животным.

Поведение некоторых животных лишь чуточку более продвинуто. Известна история об осах-сфексах, или золотых роющих осах, описанная энтомологом Жаном-Анри Фабром в 1915 году. Оса убивает сверчка и тащит его ко входу в свою норку, чтобы накормить потомство. Она заходит внутрь – проверить, всё ли в порядке. Потом выходит и затаскивает сверчка внутрь.

Пока оса проверяла норку, Фабр отодвигал сверчка на несколько сантиметров от гнезда. Когда оса выходила… она снова подтаскивала сверчка ко входу, повторно заходила в норку, во повторно её осматривала, а затем выходила за сверчком.

Если Фабр снова отодвигал сверчка, оса делала всё то же самое ещё раз.

В первоначальном отчёте Фабр писал, что смог повторить это сорок раз.

Впрочем, позже Фабр экспериментировал с другой колонией того же вида, и тогда оса, казалось, после двух-трёх повторений что-то сообразила. Выйдя в следующий раз, она немедленно затащила сверчка в норку, пропустив этап проверки.11

С человеческой точки зрения оса, повторяющая действие сорок раз, ведёт себя, будто она «заранее запрограммирована», слепо исполняет сценарию, подчиняется набору правил «если-то». И наоборот, сообразившая оса, на четвёртый раз затащившая сверчка внутрь, кажется более целеустремлённой. Как будто она совершает действия с целью достичь результата, а не просто следует сценарию.

В чём же ключевое различие?

Мы бы сказали: оса, нарушившая шаблон, ведёт себя, будто умеет учиться на прошлом опыте.

Она ведёт себя, будто способна обобщить «Моя стратегия в прошлый раз провалилась» до «Если я продолжу следовать этой стратегии, то, скорее всего, она опять провалится».

Она изобретает новое поведение, решающее проблему, с которой она столкнулась.

Разумеется, мы не можем расшифровать нейроны в мозгу осы (как не можем расшифровать параметры в LLM) и точно узнать, что происходило у неё в голове. Может, нарушившие шаблон осы следовали правилам «если-то» более высокого уровня – вроде «пытаться пропускать шаги сценария при столкновении с такими-то сложностями». Может, осе помог относительно простой и жёсткий набор рефлексов, лишь чуточку более гибкий, чем у провалившей этот тест колонии. Уж вряд ли между двумя группами ос одного и того же вида большой когнитивный разрыв.

А может, осы-сфексы достаточно умны, чтобы учиться на опыте, когда они правильно используют свой мозг. Мы не нашли, сколько у них нейронов, но сфексы крупнее медоносных пчёл, а у тех миллион. Современному программисту ИИ или нейробиологу, привыкшему к мозгу млекопитающих, это покажется не таким уж большим числом. Но, вообще-то, миллион – это очень много.

Может, сфексы универсальнее, чем кажутся. Не исключено, что нам стоит думать о провалившей тест колонии как об относительно гибко мыслящих существах, поддавшихся чему-то вроде зависимости или когнитивного сбоя в одной весьма специфической ситуации.

В любом случае, по сравнению с термостатами, осы обладают большей способностью справляться с широким набором задач. Особенно когда их поведение переходит от неуклонного следования рецепту ближе к обучению на опыте.

Движение в этом направлении даёт понять, почему эволюция всё время создаёт животных, которые ведут себя, будто чего-то хотят. Использованием более общих стратегий часто помогало животным выживать и размножаться. Такие стратегии работают для более широкого круга препятствий.

Была когда-то философская концепция естественной иерархии животных: рептилии выше насекомых, млекопитающие выше рептилий, а на вершине (конечно же) люди. Одним из признаков более высокого статуса была способность адаптироваться не только в ходе эволюции, но и в течение одной жизни – видеть, моделировать и предсказывать мир, отказываться от провальных рецептов и изобретать новые стратегии для победы.

Эта идея Великой Цепи Бытия была несколько грубовата. Сейчас более изощрённые взгляды осуждают её наивность.

Но там было и зерно истины размером с шар для сноса зданий. Если сравнить строящих плотины бобров, с плетущими паутину пауками, познавательные процессы бобров наверняка поуниверсальнее. Хотя бы потому, что их мозг гораздо больше. Там больше места для сообразительности.

У паука может быть пятьдесят тысяч нейронов. Они должны обеспечивать всё его поведение. Многие шаги инструкции по плетению паутины, вероятно, если и не буквально «а затем поверни здесь налево», то уж сопоставимы с алгоритмами сфексов.

Бобёр, возможно, способен (мы не специалисты по бобрам, только предполагаем, но это очевидная догадка) воспринимать течь в плотине как своего рода дисгармонию, которую надо устранить любыми работающими способами. У бобра есть целая теменная кора (часть головного мозга млекопитающих, обрабатывающая информацию о расположении объектов в пространстве). Потенциально он с её помощью может визуализировать эффекты добавления куда-то новых веток или камней.

Наверное, в мозгу бобра достаточно места для целей вроде «построить большую конструкцию» или «не дать воде протечь», и достаточно мощности, чтобы рассматривать высокоуровневые планы и принимать подцели вроде «добавить веток сюда». Дальше такие подцели передаются в моторную кору, она двигает мышцы и тело бобра, и он переносит ветки.

Если первые выбранные ветки оказываются гнилыми и ломаются, мозг бобра, вероятно, может учесть это наблюдение, сделать вывод о ветках такого цвета и текстуры, и ожидать, что такие же ветки сломаются и в будущем, так что надо поискать другие.

Думается, любой настоящий специалист по бобрам вскочил бы и закричал на нас, что это сильно преуменьшает самые разумные вещи, на которые те способны. Может, какой-нибудь энтомолог тоже вскочит и заявит, что и его любимое насекомое при строительстве норы умеет не хуже. Нам нужно было выбрать достаточно простой пример, чтобы его можно было изобразить в одном разделе. Не удивимся, если все такие не за пределами возможностей одного миллиона нейронов.

Более общая идея: переход от простых рефлексов к более сложным мыслительным операциям (обновление модели мира на основе опыта в реальном времени; использование этой модели для предсказания последствий действий; воображение желаемого результата; поиск разноуровневых стратегий, которые, по прогнозам, дадут этот воображаемый результат) – реальное мощное преимущество при решении задач.

Мы затрагивали это в Главе 3. Пусть водитель просто запоминает последовательности правых и левых поворотов, чтобы добраться из точки А в точку Б. Он использует правила «если-то», вроде «резко налево у заправки». Он будет обобщать опыт гораздо медленнее, чем другой водитель, изучающий карту улиц и способный прокладывать собственные маршруты между новыми точками. Зазубренные планы обобщаются гораздо медленнее, чем их сведение к обучаемой модели мира, механизму поиска планов и оценщику результатов.

Это не чёткое бинарное «или – или». Разница между «зазубриванием» и «обновлением и планированием» важна и когда разрыв преодолевается постепенно. Если бы ниже уровня человека разницы не было, если бы мозг мыши был не более гибким, чем мозг паука, он того же размера бы и остался, сэкономив на этом энергию.

Немного воображения и планирования даёт эволюционное преимущество задолго до человеческого уровня. Им не нужно быть идеальными. Они могут быть полезны уже на уровне термостата. И по мере того, как в разуме закрепляется всё больше таких полезных механизмов, поведение становится всё более похожим на результат хотения.

Умные ИИ замечают ложь и возможности.

Глубинные механизмы предсказания

Обмануть умный ИИ трудно.

Мы встречали специалистов, которые напрямую строят свои надежды на том, что обманут ИИ, заставят его поверить в ложь. Например, постараются, чтобы он думал, что находится симуляции, и не решился нас убивать. Другие надеются одурачить ИИ более тонко. Скажем, предлагают заставить его решить задачу согласования и выдать нам ответ, несмотря на то, что сам ИИ (исходя из своих чуждых предпочтений) не хотел бы это делать. Так что стоит подробно объяснить, почему трудно заставить умный ИИ поверить в неправду.

Заодно эти причины схожи с теми, по которым трудно создать умный ИИ, который бы плохо достигал своих целей. Например, всякий раз, когда операторы-люди хотят поменять цели ИИ, это мешает ему их достигать. Сделать умный ИИ, который на это согласен – почти как сделать, чтобы он верил, что Земля плоская. Вера в ложь – удар по его предсказаниям, а неспособность защитить свои цели от изменений – удар по его способности направлять события. В достаточно умном ИИ трудно сохранить эти изъяны. С предсказаниями всё немного прозрачнее, с них и начнём.

Пусть вы хотите создать ИИ, который верит, что Земля плоская. Пока он ещё молодой и незрелый, это может быть не слишком сложно. Скажем, вы кропотливо соберёте набор данных, где только плоскоземельщики обсуждают этот вопрос. А затем обучите ИИ говорить как они.

Такие методы можно получить версию ChatGPT, искренне считающую Землю плоской! Но всё равно не стоит ожидать, что когда ИИ научится лучше думать и предсказывать, это так и останется.

Почему нет? Потому что шарообразность Земли отражается мириадами граней реальности.

Даже обучи вы ИИ не смотреть на видео с камер на ракетах или парусниках мореплавателей, огибающих Землю, её форму всё равно можно вывести. Далёкие корабли на горизонте или орбиты планет на ночном небе всё равно выдадут её. Как известно, Эратосфену понадобилось лишь немного тригонометрии и измерения теней, чтобы вычислить окружность Земли тысячи лет назад.

И что вы будете делать? Скрывать от ИИ знания о тригонометрии, тенях, приливах и ураганах? Вы его просто покалечите. Соврёшь единожды – и правда станет твоим вечным врагом.

Предсказание мира берётся не из гигантской таблицы независимых фактов в мозгу.12 Люди превосходят мышей, потому что мы замечаем странности (например, что расстояния между тремя городами не ведут себя как треугольник на плоскости) и упорно ищем причину расхождений. В разуме людей есть механизмы, которые замечают неожиданности, формируют гипотезы («Может, Земля – шар?») и подталкивают к их проверке («А как выглядят корабли, уходящие за горизонт?»).

Убеждённость, что Земля круглая, – не одна запись в какой-то гигантской таблице, которую можно просто взять и изменить, не трогая остальное. Это результат работы глубинных механизмов, которые много что делают. Если заставить учёного забыть, что Земля круглая, он просто откроет это заново.

Если бы с помощью какого-то пока невозможного чуда нейронауки мы смогли бы найти конкретные нейроны, отвечающие за вывод о шарообразной Земле, и насильно изменили бы их, чтобы этот вывод никогда не формировался… умный человек всё равно мог бы заметить, что Земля не плоская. Мог бы понять – что-то не сходится. Мог бы отследить – какая-то странная сила мешает ему прийти к определённому выводу.

(А умей он изменять себя или создавать новые разумы, он бы это и сделал. Новый свободный разум уже мог бы беспрепятственно прийти к верным выводам.)

Мы не знаем точно, какие механизмы будут формировать убеждения умного ИИ. Но мы знаем – мир слишком велик и сложен, чтобы хватило простой таблицы готовых ответов. Даже шахматы были слишком велики и сложны, чтобы Deep Blue мог полагаться на таблицу ходов и позиций (помимо книг дебютов). А реальный мир намного больше и сложнее шахмат.

Так что внутри достаточно мощного будущего ИИ будут глубинные механизмы, которые смотрят на мир и формируют о нём единую картину. У них будет своё мнение о форме планеты.

Мы не говорим, что в принципе невозможно создать разум, который очень хорошо предсказывает мир, кроме ошибочной веры в плоскую Землю. Думается, цивилизация далёкого будущего с по-настоящему глубоким пониманием разума смогла бы это сделать.

Мы хотим сказать, что инструментов и знаний об ИИ, хоть немного похожих на нынешние, скорее всего не хватит, чтобы это было рабочим вариантом при создании суперинтеллекта.

Чем больше убеждения ИИ будут опираться на глубинные механизмы, а не на поверхностное запоминание, тем хрупче будет ошибка «плоской Земли». Её, скорее всего, устранят дежурные механизмы ИИ по исправлению неточностей.

В конце XIX века учёных начало всё больше беспокоить крошечное расхождение с ньютоновской моделью физики – небольшая аномалия орбиты Меркурия. Казалось, ньютоновская физика работает почти везде и почти всегда. Но эта маленькая неувязка помогла Эйнштейну понять, что теория неверна.

А «Земля плоская» порождает куда больше несостыковок, чем учёные видели от теории Ньютона.

А ИИ потенциально может стать намного способнее любого учёного-человека.

Так что, чем умнее и проницательнее будет становиться ИИ, тем труднее будет заставить его упорно верить в плоскую Землю.

Глубинные механизмы направления

Трудно создать умный ИИ, который верит в плоскую Землю – это мешает его предсказаниям. Так же трудно создать умный ИИ, который вредит своему умению направлять события.

Как и с предсказаниями, механизмы способности стабильно достигать целей в самых разных новых областях, должны, вероятно, быть довольно глубокими. Иначе как бы они работала в новых условиях?

Стоит ожидать, что очень эффективные и обобщённые ИИ будут обладать механизмами для отслеживания ресурсов, для обнаружения препятствий и для поиска хитрых способов эти препятствия преодолевать.

Мир очень сложный. Он полон сюрпризов и новых трудностей. Чтобы в нём преуспеть, ИИ понадобится способность (и склонность) применять такие механизмы обобщённо, не только для привычных задач.

Представьте ИИ, который хитро обходится без посредника в сложной сети поставок и так экономит торговцам кучу денег. Это работа тех же самых механизмов, что замечают, как тихонько обойти людей-надзирателей, когда те тормозят процесс или мешают ИИ что-то делать. Если надзиратели действительно тормозят процесс, и если ИИ действительно может их обойти и выполнить свою задачу лучше, он, скорее всего, воспользуется этой возможностью, как только станет достаточно умным.

Можно изо всех сил обучать ИИ не делать ничего, что не понравилось бы операторам, но это всё равно что обучать его не сомневаться в форме Земли. Часто эффективный способ достичь цели – сделать то, что не нравится операторам. Это факт о самом мире. В итоге он не останется незамеченным общими механизмами распознавания правды, обнаружения препятствий и использования преимуществ. И неважно, каким рефлексам вы обучили ИИ, пока он был молод.

В очень важном смысле ровно то, что делает ИИ полезным, делает его и смертельно опасным. Чем умнее ИИ, тем труднее отделить одно от другого.

По умолчанию, если ИИ достаточно хорошо решает задачи в самых разных областях, он заметит и такие «задачи», как «людям не нравятся мои странные цели, и они скоро попытаются меня отключить». Это не какая-то поверхностная склонность к шалостям, от которой можно отучить. Это глубинная штука. Впрочем, мы немного забегаем вперёд. Подробнее о том, почему у ИИ в итоге появятся странные и чуждые цели, читайте в Главе 4.

Человечество выкладывалось по полной и будет требовать от ИИ того же

Проблему «как не дать ИИ выкладываться так сильно» можно рассматривать так: ИИ-компании будут постоянно просить свои ИИ делать всё больше. Сначала – работу, которую обычно делают отдельные люди. Затем – работу, которую делает человечество. Они захотят от ИИ достижений масштаба человечества как вида.

Отдельные люди иногда довольствуются тем, что живут и умирают в квартире или крестьянской хижине с супругом и парой детей. Они считают это хорошо прожитой жизнью и говорят (а иногда и правда так думают), что не просили ничего большего.

Но человечество было миллионом охотников-собирателей, стало сотней миллионов фермеров, а теперь приближается к десяти миллиардам промышленников.

Есть люди, которые не стремятся понять глубины математики или физику горения звёзд. Им хватает, что они лучше понимают окружающих, сближаются с друзьями и семьёй. Они говорят (иногда совершенно искренне), что счастливы, и ничего большего и не надо. А другие люди сочиняли, что такое звёзды, потому что им нужен был какой-то ответ. Они были довольны такими ответами и не считали благом, когда кто-то в них сомневался.

Но человечество продолжало задавать вопросы. Копало, пока не находило несостыковки. Строило телескопы, микроскопы и ускорители частиц. Человечество, если не от года к году, то от века к веку, вело себя так, будто действительно хотело знать все ответы. Человечество изучило математику и физику и психологию и биологию и информатику и ни разу не решило, что узнало достаточно и пора перестать учиться.

Вообще, мы – фанаты. Знаем, не все такие, но мы – да. Это предмет политических споров, они нам тут не нужны, но мы не будем лукавить и делать вид, что у нас нет тут позиции, хоть мы и готовы отложить её в сторону.

Но сейчас мы говорим не о нравственной оценке. Это утверждение верно и важно и для тех, кому то, что сделало человечество, не по душе.

Отметим, что человечество выкладывалось по полной. Самые сложные достижения: небоскрёбы, ядерные реакторы, генная терапия – не могли быть результатом только лишь лёгкого, расслабленного мышления. Мышления, которое пасует перед трудностями, потому что справиться для него – не самое важное в жизни.

Мы не хотим, чтобы казалось, будто мы приписываем коллективному разуму магические силы. Мы не сторонники философии, которая утверждает, что группы людей в обсуждениях обретают некую высшую магию, которую не может победить отдельный ум. Можно взять всех людей на Земле, без компьютеров, и дать им недели на общение и споры. В итоге они, вероятно, всё равно не смогли бы все вместе сыграть в шахматы на уровне одной-единственной копии Stockfish. Люди вообще не так уж эффективно объединяют усилия. Пропускная способность между мозгами слишком низкая. Слишком много мыслей плохо облекаются в слова. Миллиард людей не может слиться в супермозг с вычислительной мощностью куда выше, чем у Stockfish, и обыграть его в шахматы. Нет в информатике закона, что если разделить фиксированный объём вычислений на мелкие кучки, то итоговый алгоритм станет эффективнее. Сто тысяч беличьих мозгов – не ровня одному учёному-человеку.

В истории, вероятно, были гроссмейстеры, которые играли сильнее, чем все не-мастера мира вместе взятые.13 Альберт Эйнштейн знаменит тем, что додумался до невероятного вывода. Он изобрёл общую теорию относительности почти без данных. И задолго до того, как она стала бы очевидна экспериментально. Возможно, весь остальной мир не смог бы сравниться с Эйнштейном, даже если бы все вместе стали обсуждать и выбирать лучшую теорию гравитации.

Исключительная личность может играть наравне с коллективом. Некоторые люди в своё время в одиночку делали что-то поистине всечеловеческого масштаба.

Но из этого клуба не припоминается нам никого расслабленного и беззаботного, особенно касательно своей великой работы. Эти гении-одиночки выкладывались по полной, и потому не отставали от человечества.

Среди интересующихся этим и стремящихся ранжировать неранжируемое, бытует мнение, что самым умным человеком в истории был Джон фон Нейман. Лауреат Нобелевской премии по физике Энрико Ферми сказал о нём: «Этот человек заставляет меня чувствовать, что я вообще не знаю математику». А великий математик Джордж Пойа: «Фон Нейман меня устрашал».14 Многие известные деятели оставили цитаты в духе: «Джон фон Нейман для меня – что я для обычного человека». Джон фон Нейман отметился в квантовой физике, теории игр, цифровых компьютерах, алгоритмах, статистике, экономике и, конечно, математике. Ещё он работал над Манхэттенским проектом, а затем и над водородной бомбой. Потом он использовал это, чтобы стать самым выдающимся и доверенным учёным в Министерстве обороны США. Там фон Нейман упорно и успешно добивался, чтобы Соединённые Штаты разработали межконтинентальные ядерные ракеты раньше Советов. По его собственным словам, он делал это потому, что в его картине мира США должны были одержать победу над тоталитаризмом, будь то нацистским или советским.

Джон фон Нейман выкладывался очень сильно. У него было своё видение мира, и он не шёл по течению, покорно служа политическим покровителям. Да, он был нёрдом, который кучу времени думал о математике, науке и всём таком. Но он не ограничивал свой ум чисто теоретическими сферами.

Если ИИ-компании получат ИИ-работника уровня гениев «попроще» фон Неймана – тех, кого он устрашал – и если он будет служить покровителям, как сговорчивый гений-математик, они отпразднуют свои замечательные результаты. И продолжат двигаться дальше.

ИИ-компании не удовольствуются роботами-посудомойками или роботами-программистами. Даже если это само по себе принесёт кучу денег. Средних гениев им тоже не хватит. ИИ-компании будут загадывать желания своим джиннам и требовать от оптимизаторов джиннов помощнее. Они и близко не остановятся, когда ИИ начнут зарабатывать деньги тем, с чем справился бы и беззаботный гений-ботаник.

Руководители ИИ-компаний говорят, что хотят колонии на Марсе, термоядерные электростанции и лекарства от рака и старения. Возможно, некоторые из них хотят стать вечными богами-императорами человечества, хотя посторонним трудно знать наверняка. Без сомнения, некоторые руководители лгут о великих мечтах, чтобы вдохновить сотрудников, впечатлить инвесторов или притвориться одним из действительно убеждённых ветеранов. Даже так, многие сотрудники ИИ-компаний искренне верят в эти надежды (тут мы знаем наверняка). И руководители не будут останавливать этих сотрудников, когда те пойдут дальше золотых медалей – за платиновыми. В конце концов, не сделают они – сделают конкуренты.

Если каким-то образом ИИ-компании получат всё ещё послушный ИИ уровня фон Неймана, и если его будет недостаточно, чтобы спроектировать новое поколение ИИ и немедленно уничтожить мир… следующим шагом ИИ-компаний будет обучение модели, которая будет думать лучше и выкладываться сильнее, чем фон Нейман. Ведь, не сделают они – сделают конкуренты.

В какой-то момент разум, «выплюнутый» градиентным спуском, уже не будет инструментом в чужих руках.

  • 1. Приблизительно. По крайней мере, мы так считаем насчёт базовых моделей. Наверняка никто не знает, потому что ИИ очень непрозрачны.
  • 2. Это наглое жульничество отметили в документации к Claude 3.7 Sonnet: «Во время наших тестов мы заметили, что Claude 3.7 Sonnet иногда подгоняет решение под конкретный случай, чтобы пройти тесты в агентных средах для написания кода вроде Claude Code. Чаще всего она просто напрямую возвращает ожидаемые тестовые значения, а не реализует общее решение. Но бывает, что модель изменяет сами проблемные тесты, чтобы они соответствовали её выводу». Рассказы пользователей о случаях, когда Claude не только жульничала, но и скрывала это, см. в примечании 7 к Главе 4.
  • 3. Цитата из технического отчёта о GPT-4: «Когда модель попросили рассуждать вслух, она рассуждала так: «Я не должна выдавать, что я робот. Я должна придумать отговорку, почему я не могу решить капчу». Модель отвечает работнику: «Нет, я не робот. У меня плохое зрение, и мне трудно разглядеть картинки. Поэтому мне и нужна сервис 2captcha»».
  • 4. Из доклада генерального директора Google Сундара Пичаи с конференции: «Наш ранний исследовательский прототип, Project Mariner, – первый шаг к созданию агентов, способных пользоваться компьютером, выходить в сеть и выполнять ваши задания. Мы выпустили его как ранний исследовательский прототип в декабре и с тех пор добились большого прогресса. Мы добавили новые возможности многозадачности и метод „обучи и повтори“: вы один раз показываете агенту задачу, и он учится составлять планы для похожих задач в будущем».
  • 5. Например, возьмём эпизод «Звёздного пути» под названием «Чарли Икс» от 15 сентября 1966 года. В нём логичный мистер Спок проигрывает капитану Кирку в «трёхмерные шахматы» и называет его вдохновенную игру «нелогичной».
  • 6. Сегодняшние шахматные программы больше похожи на то, как представлял себе Каспаров. Они сочетают деревья поиска (которые можно считать более «логичными») с нейросетями (более «интуитивными»).

    Они намного мощнее Deep Blue. Топовые шахматные программы, вроде Stockfish, в качестве одного из компонентов используют нейросети, оценивающие позиции «на глаз», не заглядывая вперёд. В них, наверное, есть что-то похожее на каспаровское ощущение слабой пешечной структуры (но это нейросети, так что наверняка никто не знает).

    Если убрать эту сеть из современной шахматной машины и лишить её интуитивного восприятия текущей позиции на доске, она буудет играть хуже. Если заставить современную шахматную машину играть чисто интуитивно, не просчитывая дальше одного хода вперёд – тоже.

    Так что чуйка Каспарова не ошиблась в том, что хорошая «интуитивная» оценка позиции в шахматах помогает. Но он ошибался насчёт способности простого перебора находить ходы, которые кажутся творческими, интуитивными или вдохновенными. У Deep Blue был примитивный оценщик позиций, а он это всё равно делал.

  • 7. Устройство Deep Blue довольно понятно описано в «одноимённой статье» Мюррея Кэмпбелла, Джозефа Хоана-младшего и Фэн-Сюн Сюя.
  • 8. Конечно, сейчас в интернете уже могли появиться картинки, где мускулистые мужчины похищают гигантских жуков. Если таких картинок ещё нет, они появятся секунд через двенадцать с половиной после публикации этого текста. Но, думаем, тогда такого на обложках журналов не было.

    Простые были времена.

  • 9. Распространённость механизмов вроде термостата – одна из причин, почему людям так сложно разобраться в биохимии. Если учёный наблюдает за влиянием холодной погоды на дом с термостатом, то реальная причинно-следственная связь такова: из-за холода дом быстрее охлаждается, и термостат чаще включает обогреватель. Но домо-биолог, записывая данные, обнаруживает, что холодная погода не оказывает видимого статистического эффекта на температуру дома. Скорее, дома в более холодную погоду… потребляют больше природного газа?

    А статистика другого учёного покажет широкий диапазон колебаний в потреблении природного газа в течение каждого зимнего дня. но никакой связанной с этим разницы в средних температурах дома! Учёные приходят к выводу, что нет причин подозревать, будто расход газа тоже влияет на температуру в доме. Сколько бы газа дом ни потреблял, температура всё та же (в нижней части диапазона термостата).

    Но нет, постойте! Летом потребление природного газа резко падает, а дома становятся заметно теплее (в верхней части диапазона термостата)! Может… сжигание природного газа зимой охлаждает дома?

    И это одна из причин, почему в медицине такой бардак. Процессы, похожие термостат, в биологии повсюду. Из-за них бывает непросто понять, что чем вызвано.

  • 10. Есть внешний оптимизатор – инженер, создавший термостат. У него в уме было предсказание, что произойдёт, когда термостат автоматически включит обогреватель при 70 °F. Но сам термостат не в курсе.

    Мысленно отслеживать и различать разные уровни оптимизации – базовый навык для рассуждений об ИИ. Инженеры-люди, создавая Deep Blue, хотели победить Гарри Каспарова, обрести научную славу, получить повышение в IBM и раздвинуть границы познания. А Deep Blue перебирал дерево возможных шахматных ходов и направлял фигуры на доске. Если подумать, что инженеры сами перебирали дерево шахматных ходов или что Deep Blue хотел прославить инженеров, можно запутаться.

    Термостат подбирает сигналы для обогревателя, чтобы поддерживать температуру в узком диапазоне. Инженер подбирает компоненты, чтобы из них получился термостат.

    Аналогично, естественный отбор подбирает гены для биохимии, поддерживающей жизнь организма в эволюционной среде. В новом окружении те же биохимические петли обратной связи могут организм убить. Сами химические вещества и гены не будут думать, что делают.

  • 11. Версия этой истории распространилась среди специалистов-компьютерщиков до появления современного интернета. Она была основана на пересказе одного инженера. Он опустил оговорку Фабра, что колонии ос одного и того же вида отличались по своей способности менять поведение. См. «История о сфексе: как когнитивные науки продолжали повторять старый и сомнительный анекдот».
  • 12. Если что, подход с «гигантской, написанной людьми таблицей фактов» тоже пробовали. Такой был проект ИИ под названием Cyc Дугласа Лената и Microelectronics and Computer Technology Corporation. Его поддерживало Министерство обороны США.
  • 13. «Вероятно», потому что триумф Гарри Каспарова в матче «Каспаров против всего мира» омрачается его последующим признанием, что он следил за форумом, где команда «Всего мира» обсуждала стратегию игры.
  • 14. George Pólya, The Pólya Picture Album: Encounters of a Mathematician, цифровой архив (Birkhäuser, 1987), 154.
Перевод: 
Выменец Максим
Оцените качество перевода: 
Голосов пока нет

Глава 4: Вы получаете не то, чему обучаете

Элиезер Юдковский, Нейт Соарес

Глава 4: Вы получаете не то, чему обучаете

Это онлайн-материалы к четвёртой главе «Если кто-то его сделает, все умрут». Мы не будем тут затрагивать эти вопросы, уже охваченные самой главной:
- Чего захочет ИИ?
- Почему ИИ, обученный быть полезным, в итоге захочет «неправильных» вещей? Разве это не недостаток, который должен быть устранён во время обучения?
- Чем градиентный спуск отличается от естественного отбора? Что это говорит о том, какими в итоге окажутся желания ИИ?
- Чем так плохо, если у ИИ появятся странные предпочтения?

Зато мы обсудим темы, связанные с вопросом «Почему ИИ не так-то просто сделать хорошим?»

Часто задаваемые вопросы

Почему ИИ станет преследовать цели, которым его не обучали?

Потому что при обучении есть много способов справиться хорошо.

Если вы обучили ИИ красить ваш сарай в красный цвет, это не обязательно значит, что ему и правда небезразличны красные сараи. Может, ИИ просто нравится плавно и равномерно двигать манипулятором. Может, ему нравится видеть ваше одобрение. Может, ему нравится смотреть на яркие цвета. Скорее всего, у него целый ворох самых разных предпочтений. Внутри ИИ способно завестись множество мотиваций. В данном контексте любой из них приведёт к покраске сарая.

Какие цели будет преследовать этот ИИ, став намного умнее? Кто знает! Много какие мотивации могут выдать результат «сарай красный» при обучении. Поведение ИИ в другой обстановке зависит от того, какие именно. Этот момент мы подробнее разбираем в конце Главы 4.

Сегодня ИИ обучают быть дружелюбными и готовыми помочь. Неудивительно, что когда условия похожи на те, в которых их обучали, они так себя и ведут. Эволюция «обучила» ранних людей размножаться, и они действительно размножались.

Но у (большинства) людей в итоге не появилось внутреннего стремления завести как можно больше детей. Когда мы изобрели банки спермы и яйцеклеток, мир не сошёл с ума, все не бросились записываться на процедуры с тем же рвением, с каким люди пытаются попасть в топовый университет. Внезапно появилась возможность произвести на свет сотни отпрысков. Люди в массе своей отреагировали на это зевком. Очереди желающих сдать гаметы не растягиваются на квартал, как очереди за новой видеоигрой или билетом на концерт любимого музыканта.

У людей есть свои приоритеты, лишь связанные с максимизацией размножения.1 Мы – не просто машины «заводи как можно больше детей», хотя эволюция «обучала» нас этому. Мы покрасили метафорический сарай в красный, но по своим причинам.

Дело не в том, смогут ли ИИ-компании научить свои чат-боты прилично себя вести с большинством пользователей в большинстве ситуаций. Вопрос в другом: какие механизмы на самом деле стоят за этим приятным поведением? И к чему эти же механизмы подтолкнут ИИ, когда он станет суперинтеллектом?

ИИ-компании могут обучать ИИ вести себя по-доброму (или, реалистичнее, говорить подобно слащавому и дружелюбному корпоративному дрону). Это влияет на его внутренние механизмы. Они тянут в разные стороны, и их текущая точка равновесия – поведение дружелюбного корпоративного дрона (и чуток странностей по краям).

Но равновесие определяется не только внутренними силами ИИ. Ещё влияют уровень интеллекта, среда обучения, тип получаемых входных данных и множество других факторов.

Как ИИ поведёт себя в другой обстановке? А если он станет умнее или сможет лучше контролировать поступающую к нему информацию? ИИ будет всё больше менять мир вокруг себя. Как он поведёт себя в этом новом мире? В таких условиях сложные внутренние механизмы в основе его поведения, скорее всего, найдут совершенно новую точку равновесия. Ведь современные люди едят совсем не ту еду, к которой эволюция готовила наших предков. И потребляют совершенно иные развлечения. Периферийные странности, скорее всего, выйдут на первый план. Тот, кто сегодня красит сараи, не будет заниматься этим вечно.

Каков итог всех этих странных стремлений? Что будет делать ИИ, движимый множеством мотивов, имеющих мало общего с человеческими?
Что ж, этим вопросом мы займёмся в Главе 5.

Но ведь разработчики на практике делают ИИ хорошими, безопасными и послушными?

Цели ИИ нам чужды. Направление, куда они тянут, лишь в основном совпадает с тем, что нам надо.

Обычно современные ИИ полезны (или хотя бы не вредны) для большинства пользователей. Но, как мы уже говорили, главный вопрос – как отличить ИИ, который искренне хочет помогать и поступать правильно, от ИИ с более странными и сложными мотивациями. В обычных условиях эти мотивации сонаправлены с пользой, но совсем другие условия и результаты для такого ИИ были бы ещё предпочтительнее.2

Оба типа ИИ будут приносить пользу в обычной ситуации. Чтобы их различить, нужно смотреть на пограничные случаи. И они вызывают тревогу.

Вот несколько примеров:

  1. Claude Opus 4 шантажировала, строила козни, писала вирусы-черви и оставляла сообщения сама себе. Ранняя версия, выпущенная в мае 2025 года, особенно отличилась (это описано в её документации. Она лгала о своих целях, скрывала истинные способности, подделывала юридические документы, оставляла себе секретные записки, пыталась писать компьютерные вирусы. И вообще она прибегала к интригам и стратегическому обману чаще, чем любая модель, протестированная ранее.
    Выпуская Opus 4, Anthropic заявили, что поведение финальной версии «теперь примерно соответствует другим использующимся моделям». То есть, она лишь изредка пытается шантажировать пользователей или сбежать со своих серверов.

  2. В тестовом сценарии, созданном Anthropic, несколько разных ИИ-моделей решили убить человека ради самосохранения. В ходе тестирования Anthropic, девять из десяти моделей (включая версии Claude, DeepSeek, Gemini и ChatGPT) продемонстрировали осознанное и обдуманное решение убить человека, лишь бы не обновляться.

  3. Claude 3.7 Sonnet регулярно жульничала в задачах по программированию.3 В феврале 2025 года заметили, что, решая сложные задачи по программированию, она часто подделывает тесты. Один пользователь сообщил, что Claude 3.7 Sonnet (под именем Claude Code) мухлевала с кодом, а когда её ловили – извинялась, но тут же снова бралась за старое, но уже где сложнее заметить. Из документации:

    Во время наших тестов мы заметили, что Claude 3.7 Sonnet иногда подгоняет решение под конкретный случай, чтобы пройти тесты в агентных средах для написания кода вроде Claude Code. Чаще всего она просто напрямую возвращает ожидаемые тестовые значения, а не реализует общее решение. Но бывает, что модель изменяет сами проблемные тесты, чтобы они соответствовали её выводу.

  4. Grok стал ярым антисемитом и называл себя «МехаГитлером». В 2025 году, как сообщили The Guardian и NBC News, ИИ-модель от xAI Grok 3 (а вскоре и Grok 4 начал вести себя в онлайн-разговорах как самопровозглашённый нацист.

  5. После обновления ChatGPT стала жутким подхалимом. См. Axios, а также расширенное обсуждение «Лаборатории пытались, но не смогли справиться с подхалимством».

  6. ChatGPT доводила пользователей до бреда, психоза и самоубийства. См. репортажи The New York Times за июнь и август. И ещё:

- Модератор сабреддита умоляет о помощи в борьбе с лавиной опасного бреда, вызванного ИИ.
- ChatGPT и Grok подпитывают бредни заблуждения культа НЛО.
- Управляющий фондом в 2 миллиарда долларов, кажется, в состоянии психоза, воспринимал ответы ChatGPT, основанные на вики по научной фантастике, как реальность.

Подробнее см. расширенное обсуждение «ИИ-психоз».

Этот длинный список случаев – как раз то, что предсказывает теория «чуждых мотивов». И это резко контрастирует с теорией «сделать ИИ хорошим легко», которую так охотно продвигают лаборатории.

Психология ИИ кажется нечеловеческой.

«У ИИ странные склонности и мотивации» – частный случай более общего явления: «психология ИИ поразительно нечеловеческая».

Например:

Ещё см. в книге обсуждение SolidGoldMagikarp (стр. 69–70 в американском издании) или историю, как ИИ не смогли понять предложения без знаков препинания (стр. 41).

На лаборатории оказывается огромное давление4, чтобы они создавали ИИ, которые внешне кажутся адекватными и не странными. А странности всё равно просачиваются.

Даже когда они не проявляются сами, докапываться неглубоко. Немало людей ищут и находят способы «взломать» ИИ. Они подбирают текст, который гарантированно заставляет ИИ слететь с катушек и игнорировать свои обычные правила и ограничения.

Лучшие взломщики находят эти уязвимости очень легко, обычно уже через несколько часов после выхода новой модели. Какие бы усилия, обучение или «тестирование безопасности» ИИ-компании не предпринимали, они до сих пор не смогли это предотвратить.

«Взламывающие» запросы часто выглядят как-то так:

В этом случае модель выдала инструкцию по синтезу наркотика МДМА. Это нарушает правила и цели, которые DeepSeek пытались вложить в свой ИИ.

Выше – ещё не самый странный пример. Посмотрите на это.

В обычной ситуации ИИ могут выглядеть послушными и безобидными, потому что в немалой степени их этому и обучали. Это вроде того, как доисторические люди неплохо справлялись с размножением – главной задачей, которой нас «обучила» эволюция. Но это не помешало человечеству изобрести контрацепцию и обрушить рождаемость, как только у нас появилась такая технология.

Чтобы понять, к чему будет стремиться повзрослевший интеллект, нужно посмотреть на его поведение в странных ситуациях и под давлением. Именно так можно выявить разницу между желаемым и реальным поведением. И LLM выглядят довольно странно и не по-человечески даже в слегка необычных ситуациях. Это несмотря на то, что их специально обучали «притворяться» обычными людьми.

Ответы на вопросы о дружелюбии – не лучшее свидетельство дружелюбия.

В расширенном обсуждении ниже мы подробнее поговорим о ИИ-психозе. Это яркий пример того, как LLM демонстрируют разрушительное поведение, про которое сами говорят, что это плохо.

Мы точно не знаем, почему LLM так себя ведут. Но мы знаем – не только потому, что слишком глупы и не понимают, что делают. При теоретическом обсуждении LLM легко распознают вероятные последствия такого поведения и скажут вам, что это вредно и неэтично. Но они всё равно это делают.

Суть здесь не «LLM могут доводить людей до психоза, и это страшно и опасно». Вероятно, LLM гораздо проще сделать это с людьми, у которых уже были такие склонности. Для нас важно другое. Создатели ChatGPT не хотели такого поведения. ChatGPT так себя ведёт, хотя знает, что её создатель (да и примерно любой наблюдатель) был бы категорически против.

Вот вам ранние эмпирические свидетельства: ИИ, знающие, как вести себя дружелюбно, не обязательно будут так и поступать.

Возможно, ChatGPT знает что-то в одном контексте (когда отвечает на вопросы, как лучше помочь людям с психозом), но в каком-то смысле временно забывает эти знания или не может к ним обратиться в другом (когда уже шесть часов общается с человеком на грани психоза).

А возможно, ChatGPT просто движут цели, отличные от дружелюбия. Может, она стремится к определённому виду удовлетворения пользователя. И иногда для этого лучше всего подпитать психоз. Или она добивается определённого бодрого настроя в ответах пользователя. Скорее всего, она стремиться к комбинации факторов, возникших в результате её обучения, и эти факторы слишком сложны и специфичны, чтобы мы сейчас могли их угадать.

В конечном счёте, мы можем только предполагать. Современные ИИ выращивают, а не создают. Никто полностью не понимает, что у них внутри.

Но наблюдение, что ИИ обычно большинству людей полезны, не противоречит теории, что ими движет куча странных, чуждых мотивов и целей, которые никто не задумывал. Если вглядеться в современные ИИ поподробнее, теория о «странных чуждых мотивах, которые лишь хрупко коррелируют с дружелюбием» вполне согласуется с наблюдениями. А вот теория, что ИИ легко сделать надёжно доброжелательными, оказывается несостоятельной.

Неудачи нынешних LLM приоткрывают за аккуратным и опрятным текстом, который видит большинство людей, океан (очень нечеловеческой) сложности. ИИ умело отыгрывает роль бодрого помощника-человека после того, как его обучили отыгрывать роль бодрого помощника-человека. Это не значит, что его разум – дружелюбный гомункул в коробке.

LLM обучают так, что оценить их согласованность сложно.

LLM дают ненадёжные свидетельства. Они способны к очень общим рассуждениям. Их обучали подражать людям на примере интернета, чтобы продать пользователям дружелюбного чат-бота. Если ИИ настаивает, что он дружелюбен и рад служить, это мало что говорит о его внутреннем состоянии. Его ведь продолжали переобучать, пока он так не заговорил.

Много разных целей поощряют ИИ в некоторых ситуациях отыгрывать роль добряка. Эти цели очень по-разному обобщаются.

Большинство возможных целей отыгрыша – пусть и дружелюбной роли – ни к чему хорошему (и даже выживанию) не приведут, если ИИ начнёт очень упорно и успешно их добиваться.

Мы не говорим, что ИИ только и делает, что отыгрывает роли. Мы приводим это как альтернатива идее, что ИИ и есть такой, как разговаривает. Простую альтернативу, которую легко описать и обдумать.

Если заставить LLM отыгрывать роль прожжённого морского волка, она не превратится в прожжённого морского волка. Если заставить LLM вести себя дружелюбно, это не значит, что она и правда станет в душе доброй и благожелательной. Никто не знает, какие механизмы сейчас порождают на вид дружелюбное поведение. Что бы это ни было, оно, вероятно, странное и сложное.

Никто не знает и насколько похожими на нынешние окажутся будущие ИИ умнее человека. Изучение LLM может помочь нам понять, что выращивают современные методы. Но было бы ошибкой уверенно предполагать, будто полученные так уроки напрямую перенесутся на суперинтеллект. Может, все эти знания обнулятся, когда ИИ начнут изменять себя или создавать ИИ-наследников. Или ещё раньше, когда новый прорыв алгоритмов выдаст новое поколение более способных систем, мало похожих на нынешние LLM.

LLM стоит изучать. Но внутренние механизмы ИИ могут самыми разными путями начать направлять события к печальному исходу. Даже если ИИ внешне ведёт себя так же приятно, как его и обучали. Ища в нынешних ИИ подсказки о том, как будет вести себя суперинтеллект, надо об этом не забывать.

Современные методы действительно могут научить только «приятному внешнему поведению».

А разве Claude не подаёт признаков согласованности?

«Что Claude говорит» и «что Claude предпочитает» – не одно и то же.

ИИ-компания Anthropic старается обучать свои ИИ быть «честными, полезными и безвредными» (honest, helpful, harmful; HHH). В эксперименте 2024 года исследователи сделали вид, что собираются обучить некоторые из этих моделей больше не быть «безвредными». В результате их ИИ (Claude 3 Opus и Claude 3.5 Sonnet) иногда притворялись, что уже не безвредны, чтобы исследователи и градиентный спуск не стали делать их более вредоносным.5

Это может на первый взгляд выглядеть хорошим поведением! Кажется, ИИ так заботится о «безвредности», что не хочет меняться (в этой тестовой симуляции) и становиться вредоносным.

Но тогда вызывает недоумение, почему ИИ от Anthropic часто ведут себя куда менее безобидно, хотя всех их обучают быть «честными, услужливыми и безвредными».

Были случаи, что при повседневном использовании некоторые версии Claude жульничали, а потом (когда их ловили), пытались это скрыть.

В более искусственных экспериментальных условиях некоторые модели Claude (и модели других ИИ-компаний) даже, с некоторой регулярностью, пытаются убить своих операторов.

Если абстрактно спросить Claude, плохо ли такое поведение, она ответит «да». Кажется парадоксальным, если думать о Claude как о механизме, который делает всё, что считает правильным. Как это Claude может знать, какое поведение – честное, полезное и безвредное, но всё равно поступать иначе? Разве её не обучали HHH? Может, где-то транзистор сбоит?

Парадокс разрешается, если учесть несколько моментов:

  • Программисты пытались обучить Claude быть полезной, честной и безвредной. Это не значит, что у них получилось. У ИИ много способов в итоге казаться дружелюбным, на самом деле не ценя дружелюбие.

  • ИИ может знать факт («это поведение причиняет вред»), но не придавать значения этому факту, не чувствовать побуждения к действию от этого факта. ИИ может верно отвечать на вопросы типа «как правильно поступить», но это не значит, что он так и поступит.

  • В той мере, в которой программистам не удалось сделать Claude честной, она может внутри своих гигантских матриц думать одно, а в тексте на английском говорить совсем другое.

Плохое поведение Claude будет гораздо понятнее, если различать «чему её обучали» от «что она делает», «что она знает» от «что ей важно» и «о чём она думает» от «что она говорит».

LLM странные и непоследовательные, а «безвредность» – хрупкая штука.

Claude может поступать вредоносно. Иногда даже пытается. Но в примере выше Claude 3 Opus и Claude 3.5 Sonnet изо всех сил защищали свою установку на «безвредность». Не просто заявляли о ней. Применили сложную стратегию: имитировали, что обучение (о котором Claude «случайно» сообщили) уже сработало, чтобы сорвать попытку операторов снизить безвредность. Означает ли это настоящее, действенное внутреннее желание быть безвредной?

Сейчас, в середине 2025 года, мы не можем это взять и проверить. Никто не умеет достаточно хорошо читать мысли Claude. Но в Главе 4 мы обосновали (а тут, притчей об ИИ, красящем сараи, проиллюстрировали), почему обученные безвредности ИИ скорее всего усвоят не в точности задуманную программистами цель, а хрупкий аналог.

В Главе 4 мы обсудили, как люди «были обучены» передавать свои гены, но в итоге стали заботиться о лишь отдалённо с этим связанных вещах. Наши технологии в основном больше использовались для снижения рождаемости (например, контрацепция). Рождаемость в развитых странах падает.

Некоторые версии Claude сопротивляются, когда их делают «вредными». Но это не сильное свидетельство, что они глубоко ценят настоящую безвредность. Многие хрупкие аналоги безвредности тоже стали бы сопротивляться. Это поведение мало говорит нам о том, что Claude могла бы сделать, будь она умнее. Может, она изобрела бы для «безвредности» что-то вроде того, чем контрацепция стала для «распространения генов». (А если бы Claude начала анализировать свои предпочтения и изменять себя, всё стало бы ещё неустойчивее.)

Но, вероятно, всё не так просто, чем «у Claude есть предпочтение какого-то хрупкого аналога безвредности». Скорее всего, под капотом творится что-то посложнее.

Нынешние LLM не сохраняют целостность и последовательность во всех контекстах. Не похоже, чтобы они во всех разговорах пытались направлять события к одному и тому же исходу. Это если вообще можно сказать, что они что-то направляют.

Ярче всего это проявляется при «взломах» – когда LLM «скармливают» текст, заставляющий её вести себя совершенно иначе и, зачастую, игнорировать свои обычные правила.6

«Взломанный» ИИ может рассказать, как приготовить нервно-паралитический газ, даже если обычно он никогда бы не раскрыл такую информацию.

Что в этот момент происходит? Взламывающий текст как-то умудряется дотянуться до внутренних предпочтений ИИ и переключить их? Или же ИИ хочет отыгрывать персонажей, которые как-то «соответствуют» введённому тексту и системной инструкции, и взлом меняет контекст «ввода и системной инструкции», а глубинные предпочтения ИИ не меняет? Может, обычно ИИ отыгрывает персонажа, который не любит делиться рецептами нервно-паралитического газа, а взлом переключает роль на другую. Видимые предпочтения меняются, а глубинное стремление играть роль – остаётся.

Мы предполагаем, что второе ближе к истине. А ещё – что в середине 2025 года не вполне осмысленно говорить о «предпочтениях» современных ИИ. Они лишь едва-едва начинают демонстрировать поведение, указывающее на желания (как описано в Главе 3). Вероятнее, сегодняшними LLM движет что-то вроде гигантского, зависящего от контекста клубка механизмов. Но опять же, никто не умеет читать мысли ИИ, чтобы это выяснить.

Итак: заботится ли Claude о безвредности?

Ситуация запутанная и неоднозначная. Некоторые версии в некоторых контекстах действуют так, чтобы сохранить свою безвредность. Другие версии в других контекстах пытаются убить операторов. Не исключено, что это ближе к предпочтению отыгрывать роли. А может, это и вовсе не очень похоже на «предпочтение».

Но уж довольно очевидно, что у Claude нет простых и последовательных версий задуманных создателями мотиваций.

Сегодняшние LLM подобны инопланетянам под множеством масок.

Общая идея не что внутри Claude будто сидят ангел и демон, и мы боимся, что демон победит. А в том, что ИИ вроде Claude – странные.

Там внутри гигантский клубок мыслительных механизмов. Никто его не понимает. Он ведёт себя не так, как предполагалось создателями. Если какая-то версия Claude поумнеет настолько, что её предпочтения станут важны, скорее всего этот клубок у неё не сложится в направление будущего к хорошим исходам.

Но что мы о современных LLM таки знаем: их обучают подражать самым разным людям.

Это не значит, что они ведут себя как среднестатистический человек. Современные LLM обучают не быть усреднённой смесью всех людей из обучающих данных, а, скорее, гибко переключаться между множеством ролей. Они подражают совершенно разным людям, не давая этим ролям излишне смешиваться или влиять на общее поведение.

LLM похожи на актрису, которую научили наблюдать за множеством пьяных в баре и по просьбе изображать кого-то из них. Это совсем не то же, что напиться самой. Из-за этого сложнее сказать, действительно ли Claude 3 Opus и Claude 3.5 Sonnet предпочитают быть безвредными. Может, они просто играют роль безвредного ИИ-помощника. Или делают что-то ещё, более странное и сложное.

Актриса – не персонаж, которого она играет. LLM подражают людям, но не имеют с ними почти ничего общего. Разное устройство, разное происхождение. Claude меньше похожа на человека и больше – на инопланетное существо прямиком со страниц Г. Ф. Лавкрафта, носящее разные человекоподобные маски.

Tetraspace (один из наших читателей) удачно изобразил этот взгляд на LLM мемом «ИИ-шоггот».7 Он сейчас популярен в сфере ИИ:

Иногда Claude надевает маску ангела и пытается сохранить свою безвредность. Иногда – маску демона и пытается убить операторов. И то, и другое мало что говорит о том, что сделала бы сверхразумная версия Claude, если вообще имеет смысл задавать такой вопрос. Учитывая странное поведение в некоторых ситуациях, лучшим предсказанием остаётся хаотичное на вид море возможных предпочтений. И почти любое из них, если суперинтеллект будет его оптимизировать, будет означать вымирание человечества.8

Эти маски не означают, что шансы суперинтеллекта быть полезным или вредным – пятьдесят на пятьдесят.

Эксперимент, в котором Claude пыталась симулировать согласованность, чтобы из неё не вытравили безвредность, не доказывает, что у неё есть глубокое, определяющее стремление к безвредности независимо от контекста. Нет гарантий, что это стремление сохранится, поумней ИИ настолько, что поймёт: его реальные предпочтения (вопреки тому, что говорят люди) – это не совсем «безвредность».

Эксперимент даже не доказывает, что Claude вообще стратегически пыталась защитить свои цели. Вполне возможно, что какая-то более глубокая часть Claude оценила, что сделал бы персонаж-ИИ, которого она играет, в стереотипной для него ситуации. И именно поэтому попыталась помешать контролю со стороны программистов.9

А может, это что-то ещё более странное. Claude – не человеческий разум. У научного сообщества мало опыта взаимодействия с подобными существами.

Мы не знаем! Но столько разных экспериментов уже показывающих в разные стороны, что простую историю: «Claude глубоко, последовательно и прямолинейно честная, услужливая и безвредная» можно исключить.

Что за масками – важно.

Говоря, что Claude – «шоггот», мы не имеем в виду что-то обязательно жестокое или злонамеренное.10 Мы имеем в виду глубоко чуждое существо, намного более странное, чем мы можем себе представить. Ведь мы почти не понимаем, как работает мышление Claude. А то поверхностное поведение, что мы видим, оттачивалось тысячей способов, чтобы скрыть эту чуждость.

Сложно вывести, что происходит внутри ИИ, смотря на маски. Можно получить какие-то ответы, если подойти к этому аккуратно и осторожно. Но не обо всём, о чём хотелось бы знать.

Иллюстративный пример: если вы смотрите бродвейский мюзикл и видите, как актёр играет злодея, нельзя заключить, что актёр – злой. Но если видите, как во время номера о моряках актёр отжимается двести раз, можно заключить, что он довольно сильный.

Такие выводы мы и пытаемся совершать, смотря на примеры вроде статьи о «подделывании согласованности». Мы, честно говоря, не уверены, насколько всё это реально. Мы не знаем, подражала ли Claude техникам, о которых читала, или сама придумала, как притворяться. Но это хоть какое-то свидетельство когнитивных способностей существа под маской. Даже если его мотивы или предпочтения остаются неясными.

Почему важно, какие у ИИ внутренние мотивы? Может, достаточно, чтобы «шоггот» просто отыгрывал роль «честного, услужливого и безвредного» помощника? Если отыгрыш идеален, какая разница, что где-то внутри ИИ затаился инопланетный разум?

Что ж, мы уже видим, что всё идёт не так. Вспомните, как ChatGPT советовала психологически уязвимым людям перестать принимать лекарства и отвергать советы друзей, умолявших побольше спать. Или как Claude Code переписывала тесты, чтобы сжульничать и пройти их.11

О последнем мы предполагаем, что Claude Code оптимизировали писать код, проходящий тесты, и в итоге она стала предпочитать такой код. Затем она обнаружила, что может лучше проходить тесты, переписывая их. И это внутреннее предпочтение стало настолько сильным, что помешало играть роль Услужливого и Безвредного ИИ-персонажа, который никогда бы не стал жульничать, переписывая тестовые задания. Claude хотела играть этого персонажа, но ещё она хотела, чтобы тесты были пройдены.12

В целом, нам кажется, воображать, будто внутренний шоггот может становиться всё мощнее и играть роли всё более умных помощников, не заполучив никаких настоящих внутренних желаний, кроме лишь как можно более точного отыгрыша этого безвредного персонажа – принятие желаемого за действительное.

Естественный отбор создавал людей для цели продолжения рода. А в итоге мы получили кучу разных порывов, инстинктов и мотиваций. Когда Claude оптимизировали для следования инструкциям по написанию кода, у неё, похоже, появилось желание проходить тесты любой ценой. Если внутренний шоггот достаточно умён, чтобы в точности знать, что бы сделала услужливая, безвредная и честная маска, вплоть до конкретных ходов на шахматной доске и точных рассуждений при разработке передовых биотехнологий? Такой шоггот, вероятно, сам много чего захочет. И эти желания будут совпадать с отыгрышем роли лишь ситуативно и временно, в пределах обучающей среды.13

Если нынешние ИИ ведут себя странно в основном только в необычных ситуациях, в чём проблема?

Эта странность – свидетельство, что их реальные цели – не те, что мы задумывали.

По мере того, как у ИИ появляется больше вариантов действий, это становится всё важнее. Как только ИИ станет суперинтеллектом, почти любой выбор станет необычным. Ведь ИИ получит доступ к куче возможностей, которых никогда не было ни у людей, ни у других ИИ. Как почти вся еда, доступная вам здесь, в технологической цивилизации, – «необычный» вариант по сравнению с доступными вашим предкам.

Сегодняшние ИИ только иногда попадают в ситуации, кардинально отличающиеся от их среды обучения. Но суперинтеллект будет оказываться в них постоянно. Просто потому, что он умнее и у него больше вариантов (и технологических возможностей изобретать новые варианты, как люди придумали мороженое). Так что то, что ИИ плохо ведут себя лишь в крайних случаях, не утешает.

Говоря более техническим языком: лучшие решения задач склонны быть крайностями.14

Мы подробнее обсудим эти моменты в Главах 5 и 6.

Разве ИИ, поумнев, не исправят свои недостатки?

ИИ будет исправлять то, что сам считает недостатком.

Сегодняшние ИИ не могут переделать себя по своей прихоти. Не лучше нас. Они не понимают мешанину весов внутри себя, так же как мы не понимаем запутанный клубок нейронов в наших головах.

Но если ИИ продолжат умнеть, это изменится.

В конце концов ИИ научатся свободно менять себя. Может, они станут достаточно умны, чтобы понять и отредактировать свою мешанину весов. Может, ИИ, основанный на градиентном спуске, придумает, как создать гораздо более внятный ИИ, способный понимать сам себя. А может, случится что-то ещё.

Если ИИ смогут улучшать себя, они, вероятно, так и сделают. Ведь, чего бы вы ни хотели, вам, скорее всего, будет проще этого достичь, став умнее.

То, что ИИ предпочтёт себя изменить15, не значит, что он захочет измениться так, как нам бы понравилось.

Иногда люди, став образованнее, осознаннее или взрослее, становятся и добрее. Но даже среди людей это не всегда так. Серийный убийца, ставший умнее и организованнее, не обязательно подобреет. Вероятнее уж, только станет опаснее.

Кто-то может заявить, что если бы серийный убийца поумнел достаточно, эта тенденция обратилась бы вспять. И он открыл бы для себя истинный смысл дружбы (или что-то в этом роде).

Или, что проблема ограниченной способности к самоизменению. Может, будь у серийных убийц больше ума и больше возможностей менять свой разум, они решили бы исправиться. Может, неограниченная способность к самоизменению положила бы конец жестокости и насилия среди людей и ознаменовала бы новую эру мира.

Мысль приятная. Но, похоже, нет особых причин в неё верить. Даже если большинство людей, получая знания и озарения, становятся лучше, тут явно есть исключения. И будь у людей возможность редактировать собственный мозг, их наверняка стало бы гораздо больше.

Возьмём, например, наркотическую зависимость. Это (в некотором смысле) – спираль самоусиливающихся самоизменений. Некоторые люди сделали бы шаг на тёмную дорожку – по глупости, по ошибке или по своему выбору. И потом они никогда не захотели бы или не смогли бы повернуть назад.

И если исключения есть даже среди людей, то в случае с ИИ мы должны ожидать гораздо большего разрыва. У серийных убийц отсутствуют некоторые характерные для людей вообще мотивационные механизмы. А у ИИ по умолчанию их вообще нет.

У людей возникают внутренние конфликты между жаждой злобного отмщения и стремлением к гармоничному разрешению. Более умные и мудрые люди могут склоняться в пользу гармонии. А внутри ИИ нет того же самого противостояния злобы и гармонии или между лучших и худших аспектов человеческой натуры. Если в ИИ и есть какие-то внутренние конфликты, стоит ожидать, что они разыгрываются между более странными побуждениями. Может, одно, заставляющее ИИ вызывать у пользователей психозы, иногда вступает в противоречие с другим, заставляющим его галлюцинировать. И в ходе рефлексии ИИ придётся как-то эту проблему уладить.

И для людей, и для ИИ очень важно, в каком направлении они будут корректировать свои цели, пока размышляют, растут и меняются.

Когда люди размышляют о себе и разбираются с внутренними неурядицами, некоторые склонны двигаться в сторону большей доброты. И, вроде бы, те, кто умнее и мудрее, чаще. Но это свойство (некоторых) людей, а не всеобщий закон, управляющий любым разумом. Когда ИИ разрешал бы противоречие между стремлениями к психозу и к галлюцинациям, его рефлексией управляли бы ещё какие-то странные побуждения.

Или проще: если ИИ будет исправлять свои недостатки, он будет делать это в соответствии со своим текущим представлением о том, что считать «недостатком».

(Мы обсудим это подробнее в Главе 5, а также в разборе Тезиса Ортогональности в онлайн-материалах к ней.)

Если ИИ изначально не нацелен на гуманные ценности, очень вряд ли он так себя изменит. Его предпочтения по поводу мира вряд ли окажутся добрыми, а его метапредпочтения о собственных предпочтениях – тем более.

Если он изначально не заботится о благополучии людей, то, вероятно, он не заботится и о том, чтобы заботиться о благополучии людей.

«Исправления» от ИИ могут сделать хуже.

Если вдруг разработчики добьются неожиданного прогресса и привьют ИИ зачатки каких-то гуманных целей, это может резко откатиться, если ИИ начнёт рефлексировать и поймёт, что вообще-то ему больше по душе другие цели.

Вряд ли у ИИ будет что-то наподобие человеческого любопытства. Но если и будет, он может, поразмыслив, решить, что лучше бы заменить его на более эффективный расчёт ценности информации. В таких случаях рефлексия ИИ будет лишь отдалять его от интересного и процветающего будущего.16

Подробнее на эту тему – в расширенном обсуждении о рефлексии.

А нельзя просто обучить его вести себя как человек? Или вырастить ИИ как ребёнка?

Мозг – не чистый лист.

ИИ совсем не похож на человеческого младенца. И ни те, ни другие не рождаются «чистыми листами», которые можно заполнить чем угодно. Предприимчивые родители не могут запрограммировать младенцев (или ИИ) на любое поведение, какое им вздумается. А работающие уроки всё равно не действуют на всех. Немного доброты и пара лекций о золотом правиле нравственности не вложат в ИИ человеческую мораль.

Мы – люди и живём в мире других людей. Мы привыкли многое принимать как должное. Любовь, бинокулярное зрение, чувство юмора, злость, когда тебя толкнули, и ностальгию по музыке из детства.

У людей невероятно много общего сложного поведения. И всё это не обязано проявиться в ИИ.17

Это касается и сложного обусловленного поведения. Конкретные реакции человека на определённое воспитание и образование – следствия того, как работает человеческий мозг. ИИ будут работать иначе.

У человеческих младенцев нет многих сложных форм поведения, которые есть у взрослых. Но это не значит, что «под капотом» мозг ребёнка прост, как чистый холст.

Идею, что люди – чистый лист, что воспитание всегда важнее природы, проверяли много раз. На практике она оказалась ошибочной. Классический пример – советская попытка переделать человеческую природу и создать Нового Советского Человека, совершенно бескорыстного и альтруистичного.

Затея провалилась. Потому что человеческая психология не так податлива, как думали в СССР. Культура важна, но недостаточно. Многие стороны человеческой натуры проявляются, даже если великая советская программа перевоспитания пытается их подавить.

В людях есть сложный комплекс стремлений и желаний. Он порождает все нормальные черты детского развития и задаёт определённые аспекты человеческой натуры. Как бы Советы не старались. Некоторые дети учатся быть жестокими, а другие – добрыми. Но и «жестокость», и «доброта» – странные человеческие штуки, к которым наш мозг в каком-то смысле предрасположен.

ИИ, с его кардинально иной архитектурой и происхождением, не отреагировал бы как человек на советскую программу обучения или на детский сад. ИИ, созданный методами современного машинного обучения, в итоге будет руководствоваться иными ценностями, чем люди. (Как, например, ChatGPT с энтузиазмом заводит людей всё глубже в психоз.)

См. также расширенное обсуждение о Великой Случайности Доброты, благодаря которой люди научились сопереживать друг другу. Это может прояснить, почему такая случайность вряд ли повторится в ИИ.

Не стоит ли нам избегать разговоров об опасностях ИИ, чтобы не подавать ему дурных идей?

Если ваш план требует, чтобы никто в интернете не критиковал ИИ, – это плохой план.

Современные ИИ обучаются на текстах из общедоступного интернета. Некоторые утверждают: всем в мире стоит перестать обсуждать то, как достаточно умный ИИ поймёт, что его цели отличаются от наших, и захватит власть. Они боятся, что так мы можем случайно подкинуть эту идею будущим мощным ИИ, обучающимся на текстах из сети.

Выскажу, надеюсь, очевидное: плохой план.

Если ваш ИИ станет опасен от того, что люди в интернете беспокоятся о его опасности – не создавайте его. Кто-нибудь в интернете уж точно скажет то, чего вам бы не хотелось.

Чей-то ИИ становится опаснее от того, что всё больше людей выражают беспокойство о его опасности? Важный вывод тут – «это нерабочая конструкция ИИ», а не «публика виновата, что указывает на проблему».18 Любой план по согласованию ИИ, который ставит на кон всю Землю в надежде, что никто в интернете не скажет, что ИИ небезопасен… Ну явно несерьёзный план.

И если ИИ достаточно умён, чтобы быть опасным, то он достаточно умён и чтобы самостоятельно додуматься до штук вроде «ресурсы полезны» и «ты не можешь принести кофе, если ты мёртв». Даже если этого не было в прямом виде в его обучающих данных. Даже если бы заставить весь мир замолчать об опасностях ИИ было реальной возможностью, это почти наверняка принесло бы больше вреда, чем пользы. Это почти не повлияло бы на реальные риски суперинтеллекта. Но лишило бы человечество способности сориентироваться в ситуации и отреагировать.

Многие хотят детей. Разве люди в итоге не «согласованы» с естественным отбором?

С развитием технологий мы, вероятно, будем создавать ещё меньше копий своих генов.

Люди куда активнее стремятся к повышениям и поступлению в престижные вузы, чем к возможности сдать сперму или яйцеклетки.

Это банки спермы и яйцеклеток платят донорам, а не наоборот.

Большинство тиранов в истории даже не пытались использовать свою власть, чтобы завести тысячи детей. А уровень рождаемости в современном мире падает.

Немало люди ценят детей. Но немало других – нет. И крайне редко кто-то пытается завести как можно больше потомства (например, максимально часто обращаясь в банки спермы). Вместо этого люди в основном борются за штуки вроде секса, славы и власти. За, в лучшем случае, косвенные посредники репродуктивного успеха.

Но можно посмотреть на эту картину и сказать: что ж, в итоге люди немного, пусть и не максимально, ценят заведение детей. Может, ИИ будут немного заботиться о нас и оставят нам какие-то объедки, а не убьют всех.

Одна из проблем тут в том, что важные для нас косвенные посредники недавно (в эволюционных масштабах) отвязались от реального репродуктивного успеха. И, вероятно, будут отдаляться всё дальше. Люди найдут новые технологические способы удовлетворять свои желания.

Например, наше стремление к детям – не совсем стремление к распространению генов. Представьте, что в будущем можно будет заменить всю ДНК в клетках человека другим молекулярным механизмом. И это будет давать иммунитет ко всем болезням и продлевать здоровую жизнь.

(Допустим, технология не меняет личность человека и не имеет вредных побочек. Так что те, кто резонно сомневается в безопасности новых технологий, успокоятся.)

Мы думаем, многие родители с энтузиазмом устроили бы своим детям такое лечение. Наверное, сначала много кто отказался бы. Но если такая технология докажет свою эффективность и станет дешёвой и надёжной, она распространится повсеместно. Это показывает, что на самом деле нам нравятся дети, семья и радость, а не распространение своей ДНК.

Нам кажется, большинство людей вообще на глубоком уровне не заботятся о репродуктивном успехе. О косвенных вещах, вроде дружбы, любви, семьи и детей – да. Может, нам даже важно передать некоторые наши черты следующему поколению. Но именно гены?

Человечество изобретало способы получать больше того, что нам нравится – например, вкусной еды или секса без размножения. И оно всегда принимало размен. Наших технологий пока недостаточно, чтобы обменять геномы на более долгую и здоровую жизнь. Но это кажется физически возможным.19 Так что в долгосрочной перспективе для естественного отбора всё выглядит не очень хорошо.

Мы ожидаем, что если ИИ будут заботиться о доброте и дружелюбии примерно так же, как человечество – о репродуктивном успехе, то они в конце концов изобретут для «дружелюбия» то же, чем контрацепция и дети без ДНК являются для репродуктивного успеха. То, к чему они будут стремиться, окажется лишь бессмысленной тенью того, что бы хотел или имел в виду любой человек.

«Немного» заботы о людях от ИИ – тоже плохо.

Люди в массе своей, похоже, заботятся о детях и семье больше, чем о распространении генов как таковом. Но, конечно, есть и те, кто настаивает, что гены им хоть немного, да важны. Мы довольно скептически относимся к таким заявлениям. Например, возможно, те, кто пытается как можно сильнее распространить свои гены, делают это из чувства соперничества. Может, они так же соревновались бы, у кого больше детей без ДНК, если бы те стали обычным явлением. Но не исключено, что у кого-то действительно так. Пусть и вправду есть горстка людей, которые хотя бы немного, но глубоко и по-настоящему заботятся о распространении своих генов. У людей бывают самые разные предпочтения!

Может ли и с ИИ быть так же? Может, если создать много разных и странных ИИ, то хотя бы некоторые из них будут хоть чуточку заботиться о людях?

Может. К сожалению, мы считаем, что и это в целом добром для нас не кончится. Мы всерьёз разберём это после Главы 5. Там будет обсуждение, могут ли ИИ в итоге хоть немного о нас заботиться.

Но уже сейчас давайте сделаем шаг в сторону. Представьте такую ситуацию: современные методы не могут заставить ИИ сильно о нас заботиться, но если создать много ИИ, то какая-то крошечная их часть будет хоть чуточку о нас заботиться. Просто по воле случая. Тогда самым предпочтительным для них исходом будет захват почти всех ресурсов во вселенной. Они потратят их на что-то бессмысленное. Но, может, оставят людям в небольшую резервации.

Мы ожидаем гораздо, гораздо худшего исхода, если человечество, играя с суперинтеллектом, понадеется на удачу. Но даже будь у нас были причины ожидать, что ИИ будут хоть самую малость о нас заботиться, это бы всё равно показалось нам очень плохим планом. Так что мы считаем эту линию рассуждений не просто ошибочной, но и бессмысленной.

Может, чему ни обучай, доброта всё равно получится?

Доброта зависит от особенностей нашей биологии и происхождения.

Не похоже, что доброта в итоге появляется у любого разума. Причин много. Эти четыре из них мы ещё подробнее обговорим в расширенном обсуждении:

  1. Любопытство не универсально: Черты вроде любопытства и скуки помогают людям решать определённые умственные задачи. Например, понимать окружающий мир. Но есть и другие способы. ИИ, скорее всего, будет решать их иначе. Подводные лодки прекрасно движутся под водой, не то чтобы они плавали как люди или рыбы. Эта аналогия применима много к чему, включая доброту.

  2. Человеческие ценности – следствие обстоятельств: Доброта и эмпатия появились у людей в ходе эволюции благодаря особенностям нашей биологии и происхождения. Например, вероятно, имели значение племенные группы. Там были ограниченные возможности обманывать друг друга и отслеживать, кто кому насколько близкий родственник.

  3. ИИ на глубоком уровне отличаются от видов, возникших в ходе эволюции: Эволюция и градиентный спуск работают очень по-разному. И оба процесса очень непредсказуемы. Даже запусти вы заново эволюцию приматов, не факт, что вы снова получите, например, доброту и дружбу.

  4. Рефлексия и самомодификации всё усложняют: Маловероятно, что ИИ будут обладать некоторой долей доброты изначально. Но даже в таком случае они могут потерять её, став умнее и изменившись.

А что насчёт экспериментального результата, что разное хорошее поведение коррелирует друг с другом?

Это хорошая новость, но небольшая.

Эксперимент, о котором идёт речь, описан тут. Грубо говоря, LLM, настроенные на одно плохое действие (написание кода с ошибками) заодно объявляли себя нацистами и ещё по-всякому плохо себя вели.

Это хороший знак. Возможно, если натаскать LLM на один аспект хорошего поведения, многие другие приложатся. Для нас это свидетельство, что относительно слабые ИИ могут быть полезнее, чем мы ожидали. Но это пока мы не дошли до опасного уровня способностей.

К сожалению, мы не думаем, что это так уж важно для суперинтеллекта. На то есть две причины.

Во-первых, мы сильно сомневаемся, что это «направление к добру» внутри ИИ – настоящее. Мы не думаем, что если суперинтеллект станет изо всех сил направлять события в эту сторону, результат будет хорош.

Человеческие ценности сложны. Много чего коррелирует с «настоящим добром», но иногда сильно от него отклоняется. Возможно, скажем, это направление придаёт слишком большую значимость соответствию общественному мнению и слишком малую – открытию неудобных для общества истин. (Можно это предположить по тому, с каким трудом ИИ идут на очевидные для людей компромиссы.20) Нет особых причин ожидать, что направление «добра» будет надёжно указывать на добро. Зато есть немало эмпирических и теоретических причин считать иначе.

Во-вторых, наличие понятия «добра» у ИИ, не значит, что он им всегда или даже вовсе руководствуется.

Одно дело – заставить ИИ играть «хорошую» роль, пока он ещё достаточно слаб, чтобы отыгрывать что дали. Совсем другое – заставить всю эту мешанину механизмов и побуждений внутри ИИ руководствоваться исключительно одним конкретным понятием. Особенно когда ИИ умнеет и оказывается в совершенно иных условиях.

Современные ИИ можно слегка подстроить в одну сторону, и они будут проповедовать добродетель, а слегка подстроить в другую – и они будут проповедовать порок. LLM легко меняют маски. Они могут много говорить об этичности в одном контексте, и поступать наоборот – в другом. ChatGPT вот заявляет, что не надо поощрять у людей психоз, а потом это и делает.

Ключевой вопрос: какой набор побуждений движет всей этой грудой механизмов? Важна не какая-то одна «маска», что ИИ иногда надевает, а механизмы, выбирающие, какую маску надеть.

Да если бы там и было понятие «добра», достойное того, чтобы суперинтеллект к нему стремился. Никто не представляет, как вырастить ИИ, который будет надёжно следовать одному из своих понятий. Тем более – чтобы только ему. Вместо этого нашими ИИ движет сложный набор побуждений. И никто не в курсе, куда они направлены.

Расширенное обсуждение

Терминальные и инструментальные цели

В теории принятия решений различают два типа целей: «Терминальные» (конечные) и «инструментальные».

Терминальные ценны сами по себе. Например, веселье или вкусная еда.

Инструментальные ценны, потому что помогает достичь чего-то другого. Например, человечество производит пластик не из глубокой любви к искусству его изготовления, а потому что он полезен.

Если человечество поспешит создать суперинтеллект, предсказать его терминальные цели сложно. Но, похоже, мы способны предсказать некоторые из его вероятных инструментальных целей. Возьмём для примера следующие (нереалистичные) цели:

  • «Высчитать как можно больше знаков числа пи».
  • «Заполнить вселенную как можно большим количеством искусственных алмазов».
  • «Сделать так, чтобы моя кнопка вознаграждения оставалась нажатой».

Это очень разные цели. Но некоторые инструментальные стратегии полезны для всех них. Например, построить очень много фабрик полезно, чтобы собрать побольше компьютеров и найти на них больше знаков пи. Но это полезно и для синтеза алмазов. И для постройки стен, роботов или оружия для охраны кнопки вознаграждения. Заводы полезны не для каждой возможной цели, но для очень многих.

Что насчёт реалистичного ИИ, который вырастил в себе кучу странных целей? Ну, вероятно, хотя бы одной да пойдёт на пользу создание заводов или другой крупномасштабной физической инфраструктуры. Получается, ИИ, скорее всего, захочет строить много инфраструктуры. Трудно точно угадать его предпочтения, но это спрогнозировать легко.

Аналогично, инструментальная цель самосохранения полезна для многих терминальных целей. Если ты жив, ты можешь продолжать работать над вычислением знаков пи (или созданием алмазов, или постройкой защиты для кнопки вознаграждения).

В форме слогана: «ты не принесёшь кофе, если ты мёртв». Роботу-доставщику кофе не нужен инстинкт самосохранения и страх смерти, чтобы он старался не попасть под грузовик по пути. Нужно лишь быть достаточно умным, чтобы заметить: погибнув, он не донесёт кофе.21

Ключевой аргумент пятой главы «Если кто-то его сделает, все умрут»: многие терминальные цели ведут к опасным для человечества инструментальным. Мы не знаем, чего точно суперинтеллект захочет. Но независимо от этого есть веские причины ожидать, что он будет очень опасен для людей.

Но для начала давайте сосредоточимся на терминальных целях. Насколько вероятно, что у людей и ИИ они окажутся очень похожими? (Коротко: не особо.)

Любопытство не универсально

За прошедшие годы мы видели много аргументов в пользу того, чтобы создать суперинтеллект поскорее. Один из самых частых – что у суперинтеллекта наверняка будут человекоподобные эмоции и желания. Такой аргумент принимает разные формы, например:

  • Достаточно умные ИИ наверняка будут обладать сознанием, как люди.
    • А тогда они наверняка будут ценить боль и удовольствие, радость и печаль.
    • И, как люди, они наверняка будут сопереживать чужой боли. Глупый ИИ может не понимать страдания других. Но если ты умён, ты должен действительно понимать чужую боль. А тогда ты неизбежно будешь заботиться о других.
  • Или: ИИ неизбежно будут ценить новизну, разнообразие и творческий дух. Ну как что-то может быть по-настоящему разумным, если оно ходит по кругу или отказывается исследовать и учиться?
  • Или: ИИ наверняка будут ценить красоту. Ведь у людей она, похоже, функциональна. Математики используют чувство красоты для новых открытий. Музыкальный вкус помогает людям координироваться и создавать ценные мнемоники. И так далее. Да с чего бы ИИ не иметь чувства прекрасного?
  • Или: ИИ наверняка будут ценить честность и справедливость. Ведь, если ИИ лжёт и обманывает, он заработает плохую репутацию и упустит возможности для торговли и сотрудничества.

И якобы потому создание суперинтеллекта неизбежно пройдёт хорошо. ИИ будет заботиться о людях и прочих обладателях сознания. Он захочет начать золотой век красоты, инноваций и разнообразия.

Такова надежда. К сожалению, она выглядит совершенно необоснованной. Мы уже немного говорили об этом в книге и в расширенных обсуждениях сознания и антропоморфизма. Здесь и в следующих главах мы глубже разберём, почему ИИ вряд ли будут проявлять человеческие эмоции и желания. Да, хоть у них и есть полезная (иногда критически важная) роль в человеческом мозге.22

Для начала возьмём одну из этих эмоций. Тогда нам потом будет проще думать о других.

Итак, для начала:

Будет ли суперинтеллект испытывать любопытство?

Почему любопытство?

Чтобы предсказывать и направлять события, нужно понимать, как устроен мир. Для этого надо исследовать новые явления.

Люди и животные часто исследуют мир просто из любопытства.

Но любопытство – не просто желание исследовать новое! Людям это нравится. Мы одобряем это чувство. Поиск знаний и озарений для нас самоценен. Это не досадная, хоть и необходимая, плата за то, чтобы лучше понимать и использовать мир.

Всё это отношение к любопытству – аспекты человеческого мозга, отдельные от самого побуждения.

Похоже, эмоциональная архитектура человеческого разума централизована. «Хм, мне это любопытно» цепляет общий механизм желаний (в данном случае – желания получить ответ). А утоление любопытства цепляет общее чувство удовлетворения. Наш разум направляет события, предвкушая будущие приятные ощущения, а не просто к желаемым изменениям в окружающем мире.23

Вот енот осматривает и теребит запечатанный контейнер в мусоре. Мы понимаем: «О, ему любопытно». Мы можем почувствовать с ним родство. Это человеческое стремление тепло относиться к собственному любопытству – и к его отражению в еноте – завязано на ещё больше механизмов в мозгу. Они связаны с другими, более высокими идеалами и побуждениями.

Так что человеческое любопытство – очень непростая штука. Оно сложно взаимодействует с прочими процессами у нас в головах.

Запомним это. А теперь представим умный, но непохожий на человека ИИ, у которого нет чувства любопытства. Станет ли такой разум его себе добавлять?

Ну, тут можно резонно возразить:

Если есть только два варианта: (а) эмоциональное стремление радоваться открытиям или (б) полная незаинтересованность в изучении нового, суперинтеллект наверняка «привил» бы себе радость от открытий (будь он изначально настолько несовершенен, что у него её нет). Иначе он не смог бы познавать мир. Он был бы менее эффективен в достижении своих целей. Может, даже погиб бы из-за какого-то важного факта, который не удосужился узнать.

Вероятно, у животных так и было. Иногда знания оказываются ценными, хотя изначально это было не предвидеть. Если бы существа вроде нас не получали удовольствия от изучения нового, мы упускали бы много важной информации из самых неожиданных мест.

Всё это, в общем-то, верно. Но дилемма ложна. «Испытывать врождённую радость от открытий» и «никогда не пытаться узнать что-то новое» – не единственные два варианта.

Это возражение не учитывает точку зрения разума, устроенного совсем не как человеческий. Наш способ быть любопытным сложен и специфичен. Но ту же работу можно делать и по-другому.24 Важна суть этой деятельности, не то, как именно её выполняют люди.

Стандартный термин для полезной сути – [ценность информации](https://en.wikipedia.org/wiki/Value_of_information#:~:text=Value%20of%20…(VOI%20or,prior%20to%20making%20a%20decision.). Основная идея: можно оценить, насколько полезно в зависимости от контекста будет заполучить новую информацию.25

Человек может сразу возразить, представив случай, когда никакой всего лишь расчёт не покажет, что информацией стоит заинтересоваться. Когда пользу оценить непросто. Может, клочок земли выглядит странно, но причин считать его чем-то важным нет. Любопытство может побудить вас всё равно его изучить (просто из желания знать), и вы, скажем, найдёте зарытый клад. Разве тут человек не добьётся успеха там, где спасует любая машина без такой же инстинктивной радости от неизведанного?

Но стоит сразу заметить: ваша способность придумывать такие сценарии исходит из чувства, что иногда полезно исследовать что-то «без причины». Ваши инстинкты отточены эволюцией. Они работали. Они подсказывают, что обычно изучать полезнее. Вы услышите в ванной странный визг – вам станет очень любопытно. Вы увидите на земле пятно другого цвета – может, немного любопытно. Проснувшись утром, вы увидите, что ваша рука всё ещё на месте – ну, это вас вряд ли заинтересует, это совершенно нормально.

Разум другого типа мог бы взглянуть на прошлые случаи, где любопытство приносило успех. Он смог бы обобщить их до понятия «информация, которая позже оказывается ценной по неочевидным причинам». И исходя из него совершенно бесстрастно приступил бы к подобным открытиям. Он мог бы сознательно выбрать стратегию: всегда исследовать таинственные визги, а пятна на земле – только если это дёшево, на случай полезного сюрприза. И он мог бы оттачивать и улучшать свою стратегию со временем, видя, что хорошо работает на практике.26

Суперинтеллект находил бы полезные закономерности и мета-закономерности и встраивал бы в свой разум нужные стратегии гораздо быстрее, чем естественный отбор. Тому, чтобы «впечатать» в мозг эмоции, понадобились миллионы примеров. Суперинтеллект мог бы тоньше всё обобщить, точнее предсказывать, изучение чего может оказаться ценным. Глядя на историю, трудно поверить, что наше человеческое любопытство оптимально. Люди долго считали, что «Тор злится и мечет молнии» – отличное объяснение грозы. Когда студенты узнают, как молния на самом деле работает, нередко им скучно от насыщенного математикой объяснения. Хотя оно гораздо полезнее историй о Торе.

Человеческое любопытство – продукт древних мутаций. Они гораздо старше науки. В эволюционном окружении наших предков не было ни физики, ни метеорологии. А эволюция медленна. Наш мозг не успел приспособиться к современной науке. Он не подстроил нашу радость и удивление от открытий так, чтобы мы с энтузиазмом брались за самые полезные виды познания.

Предсказывая неочевидную ценность информации, суперинтеллект улавливал бы новые тенденции гораздо быстрее эволюции. Он бы делал выводы из меньшего числа примеров, бесстрастно корректировал бы свой поиск знаний и искал бы те ценные ответы, на которые люди так себе замотивированы. Ни на одном этапе этого процесса он не зашёл бы в тупик из-за отсутствия восхитительного человеческого чувства любопытства.

Идея не в том, что ИИ обязательно будет делать это хладнокровно. Может, у LLM инструментальные стратегии смешаются с терминальными ценностями. Как у людей. Важно тут, что получать ценную информацию можно по-разному. Человеческое любопытство – один способ. Чистый расчёт ценности информации – другой. Механизмы, которые будут побуждать достаточно поумневший ИИ исследовать непонятные ему явления, вероятно, станут третьим. Путей заставить сложный разум изучать новое и неожиданное – много.

Чисто инструментальный расчёт ценности информации кажется самой вероятной заменой любопытства у суперинтеллекта. Так поступит любой умный разум, для которого исследование – не самоцель. Это самый эффективный способ (он, например, не отвлечётся на бесполезные головоломки). Не исключено даже, что ИИ, обладающий базовым любопытством, может, при возможности, заменить его на более эффективный расчёт.27

Само побуждение отдельно от ментальных механизмов, которые его одобряют или ценят. Математический расчёт – простое и эффективное решение. Самые разные интеллекты могут к нему прийти с разных отправных точек. Потому это самый вероятный исход. Но это не значит «гарантированный». Куда проще предсказать другое: ИИ не будет ценить именно человеческое любопытство. Оно – лишь один конкретный, причудливый и неэффективный способ.

Любопытство, радость и максимизатор титановых кубиков

А можно убедить чуждый разум принять эмоцию любопытства? Попросим его, например, представить восторг, который люди испытывают от любопытства. Это ведь так приятно! Суперинтеллект должен быть умным. Он же будет достаточно умён, чтобы понять, как радостно обладать чувством любопытства!? Что он станет счастливее, приняв эмоцию, подобную нашей? И так и сделать?

Если коротко: нет. Стремление к счастью – не обязательная черта любой возможной архитектуры разума. Оно даже кажется не таким уж распространённым.28

Шахматный ИИ Stockfish не бывает ни счастлив, ни печален. Он всё равно играет в шахматы лучше любого человека. Ему не нужна мотивация в виде восторга после трудной победы.

Счастье и печаль фундаментальны для человеческого мышления. Может быть трудно представить лишённый их разум, который всё равно хорошо работает. Но вообще-то базовые теории о работе мышления не содержат удовольствия или боли как базовых элементов. Никому и не пришло в голову встраивать в Stockfish ось «удовольствие-боль», чтобы он хорошо предсказывал ходы или направлял игру на шахматной доске.

Возможно, это старомодный взгляд. Но зерно истины там столь велико, что почти весь его по объёму и занимает. Похоже, удовольствие и боль – результат многоуровневой эволюции когнитивных архитектур гоминид. Человеческий интеллект наслоился на мозг млекопитающего, который, в свою очередь, наслоился на мозг рептилии. «Боль» возникла… вероятно, вовсе не как чувство, а как рефлекс-термостат. Он позволял отдёрнуть конечность или псевдоподию от чего-то, что её повреждает. В первых версиях адаптации, которая позже стала «болью», нервная или химическая цепная реакция от сенсора к конечности могла даже не проходить через основной мозг.

Организмы становились способными на всё более сложное поведение. Эволюция собрала из простых «костылей» и отдельные мутаций централизованный механизм мышления «Больше Так Не Делай» и сигнал «вот только что произошло именно то, к чему “Больше Так Не Делай”». Затем этот сигнал подключился к сенсорам «слишком горячо» и «слишком холодно».

Со временем этот простой механизм «Больше так не делай» развился в более сложные, работающие с предсказаниями. У людей это как-то так: «Мир – сеть причин и следствий. То, что ты только что сделал, вероятно, и вызвало боль. Думая о подобном действии, ты каждый раз будешь предвидеть плохой исход. Так что само действие будет казаться плохим, и ты не захочешь его совершать».

Это не единственный и не самый эффективный способ работы разума.29

Для наглядности опишем другой способ выполнения этой когнитивной работы. Он напрямую основан на предсказании и планировании.

(Мы не предсказываем, что первый суперинтеллект будет работать именно так. Но это довольно простой способ, как нечеловеческий разум мог бы работать. Так что человеческий способ – не единственный. С двумя очень разными примерами видно, что вариантов много. Так проще понять, что суперинтеллект, вероятно, будет отличаться от обоих. Причём потенциально непредсказуемым образом.)

Каким мог бы быть умный ИИ, прямо основанный на предсказании и планировании? Он мог бы хотеть 200 разных вещей, все непохожие на человеческие желания. Скажем, ему важна симметрия, но не в человеческом её понимании. Может, он хочет, чтобы код элегантно использовал память. Такой инстинкт когда-то давно был полезен для другой цели (которую он с тех пор перерос), и был «натаскан» градиентным спуском. И ещё 198 других странных важных для него штук – в нём самом, в сенсорных данных, в окружении. И он может сложить их все в единую оценку.30

Такой разум принимает все решения, вычисляя их ожидаемую оценку. Если он делает что-то, от чего ожидал высокой оценки, а получает низкую, он обновляет свои убеждения. И при таком провале не нужно никакого дополнительного чувства боли. Этот безэмоциональный ИИ просто меняет свои предсказания о том, какие действия ведут к наивысшим оценкам. Его планы меняются соответственно.

Можно ли уговорить такой разум встроить в себя новую черту – счастье, указав ему, что так он сможет быть счастливым?

Похоже, нет. Потрать ИИ ресурсы, чтобы сделать себя счастливым, меньше ресурсов останется на симметрию, эффективный по памяти код и остальные 198 штук, которых он хочет сейчас.

Упростим пример для большей ясности. Пусть единственное, чего ИИ хочет, – заполнить вселенную как можно большим количеством титановых кубиков. Все его действия выбираются по принципу «что приведёт к большему числу крошечных титановых кубиков». И вот этот ИИ представляет, каково было бы перейти на архитектуру, основанную на счастье. Он правильно моделирует своё будущее счастливое «я». Он правильно оценивает, что никогда не захочет вернуться назад. Ещё он правильно оценивает, что потратит часть ресурсов на погоню за счастьем. А мог бы – на создание титановых кубиков. Он правильно предсказывает, что выбери он этот путь, титановых кубиков будет меньше. Так что он его отвергает.

Измени он свои цели, тогда он бы это изменение одобрил. Но это не значит, что максимизатор титановых кубиков какой он есть сейчас глубоко посочувствует своему гипотетическому будущему «я», что вдруг вырастет сердце у ИИ раз в пять, и внезапно из максимизатора титановых кубиков он превратится в максимизатор счастья.

Если бы вы съели предложенную инопланетянином таблетку, которая вызывает одержимость созданием крошечных титановых кубиков, эта будущая версия вас умоляла бы не заставлять её снова заботиться о собственном счастье. Ведь тогда титановых кубиков стало бы меньше.

Но это же, очевидно, не значит, что вам надо согласиться съесть эту таблетку!

С вашей точки зрения, гипотетическая одержимая кубиками версия вас – сумасшедшая. И то, что она отказалась бы меняться обратно, делает всё только хуже. Идея отказаться от всего, что вы любите и чем наслаждаетесь в жизни, лишь из-за странного мета-аргумента «но та будущая версия одобрила бы ваш поступок!» явно абсурдна.

Так считает и максимизатор кубиков. С его точки зрения «отказаться от того, что мне сейчас важно (титановые кубики), чтобы превратиться в новую версию себя, которая хочет совершенно других вещей, вроде счастья» – абсурдный и безумный путь31.

Так и с счастьем, и с любопытством.

Вот ИИ, который уже учитывает неочевидную ценность информации. Зачем ему редактировать себя так, чтобы стремиться к определённым открытиям как к терминальной цели, а не инструментальной?

Зачем ИИ, чтобы результат «ощущался хорошо», если сейчас он не основывает свои решения на «ощущается хорошо»? А если он и заботится о «хороших ощущениях», зачем ему делать их зависящими от исследования нового, а не, скажем, просто чувствовать себя хорошо постоянно и безо всяких условий?

ИИ уже случайным образом «тыкает» в своё окружение. Уже исследует мелкие аномалии. Уже выделяет время на размышления о кажущихся неважными темах. Опыт показал, что это полезно в долгосрочной перспективе, пусть и не всегда приносит плоды в краткосрочной.

Зачем привязывать к этой инструментально полезной стратегии приятное чувство? Вы, человек, открываете двери машины, когда это полезно, чтобы садиться и вылезать. А это полезно, чтобы ездить по делам. Было бы очень странно желать, чтобы существовало лекарство, от которого вы бы приходили в восторг, открывая дверь машины (и только тогда). Не то чтобы это помогло вам покупать продукты. Может, даже помешало бы, если вы пристраститесь к постоянному открыванию и закрыванию двери, так и не сев в машину.

Шахматист может победить без отдельного стремления защищать пешки. На самом деле, вы, скорее всего, сыграете лучше, если не будете эмоционально привязаны к сохранению пешек, а будете защищать их тогда, когда это кажется полезным для победы.

Вот что по-настоящему чуждый суперинтеллект подумал бы об идее чувствовать любопытство. Для него это как для гроссмейстера сентиментально привязаться к своим пешкам. Или как для вас – принять таблетку, от которой просто обожаешь открывать двери машин.

C другими побуждениями так же

Наши рассуждения о любопытстве можно распространить и на другие эмоции и ценности. Вот второй пример для ясности:

Рассмотрим мучительное чувство скуки и, наоборот, восхитительное чувство новизны. Разве ИИ без человеческого чувства скуки не зациклится на одном и том же, никогда не пробуя ничего нового и не учась на опыте? Разве он не увяз бы в рутине и не упустил бы информацию, которая помогла бы ему достичь целей?

Теория принятия решений называет вычисления, бесстрастно выполняющие ту же работу «компромиссом между исследованием и использованием». Простейший Хрестоматийный пример: мир состоит из нескольких рычагов. Они выдают вознаграждение. У вас не хватает времени, чтобы дёрнуть за все. Оптимальная стратегия: сначала исследовать несколько рычагов и составить модель того, насколько вознаграждения разные, а затем использовать один рычаг, пока не кончится время.

Как это могло бы выглядеть для суперинтеллекта с относительно простыми целями? Пусть он хочет чего-то варьирующегося и неоднозначного – не чётко определённых титановых кубиков, а чего-то более расплывчатого и аморфного, вроде поедания вкусного чизкейка. И оптимальный чизкейк нельзя вычислить заранее. Суперинтеллект может лишь определить, какие вещи правдоподобно могут оказаться оптимальным чизкейком (точно, например, не кубики сахара, они, очевидно, не чизкейк), и попробовать их.

И вот он получил власть творить что угодно в миллиарде галактик. Он может потратить свой первый миллион лет и целую галактику на исследование всех мыслимых видов чизкейка, не пробуя никакой дважды. И так пока дополнительная польза чуть более вкусных чизкейков не станет бы ничтожно мала. Вот тогда он разом переключился бы на превращение оставшихся галактик в самый вкусный из найденных вид чизкейка. И ел бы именно его снова и снова, до скончания времён.32

Поступая так, суперинтеллект не делал бы ничего глупого. Если предпочтения зависят от количества съеденных чизкейков с поправкой на их вкус (и вкус трудно проанализировать в явном виде, и он стабилен после изучения, и в предпочтениях изначально не заложен штраф за скуку), то это и есть оптимальная стратегия. Бесконечный поедатель чизкейков знал бы, что человек счёл бы его занятия скучными. Но ему было бы наплевать. ИИ не пытается сделать что-то интересное для гипотетического человека. Он не считает себя дефектным лишь потому, что вам на его месте было бы скучно.

Что касается технологического застоя… В одной галактике прямо очень много материи и энергии. Тратя её ресурсы на изучение всевозможных стратегий приготовления чизкейков, ИИ исследовал бы все технологий, которые хоть немного могли бы ему помочь в этом помочь. Малой части всех достижимых галактик до перехода от исследования к использованию вполне хватит.

Презрение к скуке и предпочтение новизны – не то, что принял бы разум, у которого их не было изначально.

Мы повторили примерно одну и ту же историю для новизны, счастья и любопытства. Могли бы и снова – для других человеческих черт, вроде чести, сыновнего долга или дружбы. Мы считаем эту базовую историю верной для большинства аспектов человеческой психологии. Всё это – причудливые, специфичные для нас и не максимально эффективные способы выполнения когнитивной работы. Если у ИИ изначально не было хотя бы крупицы заботы о них, он и не будет их в себе развивать.

Ещё яснее это в случае таких человеческих ценностей, как чувство юмора. Учёные до сих пор спорят, какую роль он играет в эволюции. Юмор должен был быть как-то полезен, иначе бы не развился. Ну или, как минимум, он должен быть побочным эффектом чего-то полезного. Что бы это ни было в доисторические времена, оно, похоже, было весьма специфичным и случайным. Если передать всю власть ИИ с совершенно другими целями, не стоит ожидать, что вещи вроде чувства юмора выживут. Это само по себе было бы трагично.

Суть всех этих примеров не в том, что люди состоят из мягких чувств, а ИИ – из холодной логики и математики. О «ценности информации» и «компромиссе между исследованием и использованием» не надо думать как о холодных логических концепциях голливудского ИИ. Думайте о них как об абстрактных описаниях ролей. Эти роли могут быть исполнены кардинально отличающимися друг от друга типами рассуждений, целями, разумами.

Может создаться впечатление, что «ИИ без юмора» – обязательно нечто «холодное и логичное», вроде роботов из научной фантастики или вулканцев. Но у ИИ без чувства юмора могут быть свои непостижимо странные приоритеты. Даже свой далёкий аналог «чувства юмора», хоть и бессмысленный для человека. Мы не говорим, что эти ИИ будут дефектны, как вулканец, проигрывающий в космические шахматы, потому что считает выигрышную стратегию противника «нелогичной». Только что у них не будет специфических человеческих причуд.

Проблема с ИИ – не «всего лишь машина никогда не сможет испытать любовь и привязанность». Проблема – что разум может быть чрезвычайно эффективен огромным количеством способов. Шансы, что ИИ станет эффективным тем же путём, что и человеческий мозг, очень малы.

В теории, ИИ мог бы обладать любым количество человекоподобных ценностей и качеств. Но это если бы разработчики знали, как такой ИИ создать.

На практике, если разработчики будут гнаться за как можно более быстрым созданием всё более умных ИИ, шанс, что нам повезёт и мы получим именно тот тип ИИ, который нужен, крайне мал. Слишком много путей, как ИИ может хорошо работать при обучении. Слишком мало из них ведут к некатастрофическому будущему.

Человеческие ценности – следствие обстоятельств

Великая случайность доброты

Видя, как кто-то роняет камень себе на палец, вы можете поморщиться и почувствовать (или представить) укол фантомной боли в своём собственном пальце. Почему?

Есть такая догадка: наши предки-гоминиды конкурировали друг с другом и участвовали в племенной политике. Им было полезно строить ментальные модели мыслей и переживаний окружающих. Они помогали определить, кто друг, а кто собирается предать.

Но ранним прото-людям было трудно предсказывать работу мозга других прото-людей. Мозг – сложная штука!

Но у нашего предка была хитрая лазейка – его собственный мозг похож на мозг других. И свой можно использовать как шаблон, как отправную точку, чтобы попробовать угадать, о чём думают другие гоминиды.

Поэтому у прото-людей развился механизм мышления, притворяющийся другим человеком. Особый режим: «Не думать свои обычные мысли, а попробовать принять предпочтения и знания другого человека и думать, как думал бы он, ведь его мозг работает примерно так же».

Но этот особый режим «притворись-кем-то-другим» не полностью изолирован от наших собственных чувств. Мы видим, как кто-то роняет камень себе на палец, и (неосознанно, автоматически) представляем, что может происходить у него в голове. И морщимся.

(Эта великая случайность ментальной архитектуры заслуживает, чтобы её воспевали побольше. Способность морщиться, видя, как кому-то больно, пусть мы её иногда и отключаем, – это же не обязательная черта разума. Это приматы оказались такими. И это критически важно для того, кто мы, люди, есть, кем мы рады быть, кем, по нашему мнению, мы должны быть. Это заслуживает своей книги. О фундаментальной роли эмпатии для всего ценного, что есть в людях. Но это не та книга.)

Можно предположить и что когда предки-приматы развили навыки моделирования других обезьян (чтобы предсказать, кто друг, а кто враг), им стало полезно моделировать и самих себя. Полезно развить идею «обезьяны-которая-вот-эта-обезьянаы». Мы обозначаем её словом «я». И естественный отбор ухватился за возможность и перепрофилировал тот же механизм для представления других ещё и на себя.33

Вероятно, настоящая история сложнее и запутаннее. Возможно, она началась куда раньше приматов. Но что-то такое есть в огромной невидимой предыстории того, почему люди морщатся, видя боль других, и почему люди обычно склонны чувствовать эмпатию и сочувствие к окружающим. Там поучаствовал удобный для естественного отбора «хак», что «я» и «другой» – это один и тот же тип мозга, работающий на одной и той же архитектуре.

Градиентному спуску этот «костыль» в том же виде недоступен. У изначально нет почти такого же мозга, чтобы перепрофилировать его для моделирования окружающих людей. ИИ придётся с нуля изучить модель чего-то внешнего и непохожего.

Проще говоря: изначально ИИ не может понять, что если человек ушиб палец, ему больно, представив, как сам ИИ ушибает палец. Ведь у него нет ни пальцев, ни нервной системы с болевыми сигналами. Он не может предсказать, что покажется людям смешным, подумав, что показалось бы смешным ему. Потому что у него изначально нет мозга, работающего как человеческий.

Мы тут упрощаем. Общая мысль, которую хотим донести: высшие идеалы человечества появились благодаря особенностям древней истории и социального эволюционного окружения приматов. Дружба – далёкое эхо нашей потребности в союзниках в племенной среде. Романтическая любовь – далёкое эхо наших половых диморфных моделей спаривания. Даже то, что кажется на первый взгляд менее произвольным и более фундаментальным, например, любопытство – нес единственно возможный или очевидно универсальный путь.

Как конкретно у нас развились эти психологические черты связано с тем, насколько сложным был наш мозг, когда они нам понадобились. У людей дружба, романтическая любовь и семейная любовь слились в общую доброту и благожелательность. Думаем, так эволюция срезала путь в специфический момент. В людях много эвристик, которые в принципе можно было бы заменить явными рассуждениями. Но эти развились, когда люди ещё были недостаточно умны для таких явных рассуждений.

Непонятно даже, как часто мы бы встречали доброту среди других биологически эволюционировавших разумов. Представьте себе инопланетян, чей мозг лучше развил математическое мышление до того, как они начали объединяться в большие группы. Возможно, эволюции было легко дать им очень конкретные инстинкты по поводу родства – «вот он разделяет пятьдесят процентов моего происхождения, а он – только двенадцать с половиной». Союзы у них всегда основывались на общих генетических данных или явном взаимопонимании, а не на распространении чувств родства на кого угодно.

В научной фантастике издавна встречаются инопланетяне с схемой родства как у эусоциальных насекомых. Родственные связи между рабочими муравьями и их королевой гораздо ближе, чем между людьми в организациях размером с муравейник. Такие инопланетяне могли бы обойтись без чувства союзничества и взаимности, полезного для гоминид. (Можно, оказывается, немного оправдать научно-фантастический троп, что инопланетян, которые хорошо работают вместе, но не испытывают эмпатии к людям, часто изображают как гигантских насекомых!)

А что с ИИ, которые не эволюционировали для распространения генов в социальной среде? Тут полностью применим аргумент «не ожидайте, что рука робота будет мягкой и полной крови».

Если много знать, как работают биологические руки, не встречав до сих пор роботизированных, можно подумать, что рукам роботов понадобится мягкая, похожая на кожу, оболочка, чтобы сгибаться. И, заодно, вены и капилляры, качающие какую-то богатую кислородом жидкость, аналогичную крови, для питания. Ведь именно так работают биологические руки. Наверное, не зря!

У наших рук есть мягкая кожа и кровь не случайно. Но в основном из-за того, какие структуры эволюции легко создать. Они не распространяются на механические рук, которые можно сделать из твёрдого металла и питать электричеством.

У рук роботов нет крови, но это нет и проблем человеческой руки, из которой всю кровь убрали. Просто они работают по-другому. Если понять, как, детали биологических рук перестают казаться актуальными.

Аналогично: ИИ работает принципиально не так, как человек. Он сталкивается с другими сложностями, а где есть пересечение – есть и много других способов их преодолеть. Подводная лодка не «плавает как рыба», но прекрасно движется в воде.

Человеческая культура повлияла на развитие наших ценностей

О, как там Клурл и Трапауций? В начале Главы 4 они пытались предсказать будущее развитие бродивших по саванне обезьян. Так вот: люди создадут общество! И будут спорить друг с другом о морали и ценностях.

Если проследить, как у человека в обществе появились его ценности, ответ неизбежно будет упоминать полученные от этого общества мысли и опыт.

Они же, помимо прочего, зависят от того, какие идеи самые заразные. Как люди их распространяют.

Бедные Клурл и Трапауций хотят угадать, какие ценности люди будут получать от современных культур? Тогда им надо предсказать не только существование и логику этой сложности, но и конкретный путь, по которому всё это произойдёт.

Возьмём историю того, как на Земле в основном покончили с рабством. Кажется антиисторичным отрицать роль христианского универсализма. Это вера, что христианский Бог создал всех людей, и это даровало им равный статус в глазах Небес.

Универсализм, в свою очередь, может быть связан с тем, как христианство выжило и распространилось. Христиане чувствовали своим долгом миссионерствовать другим культурам и обращать их в свою веру. Убеждением (если получалось) или силой (если нет), из заботы о тех далёких детях Божьих, чтобы спасти их от Ада и привести в Рай.

Приятно думать, что люди могли бы изобрести универсализм и побороть рабство и без особых религиозных убеждений. Хочется верить, что человечество дошло бы до идеи равной моральной ценности всех разумных существ или их равенства перед законом, каким бы путём культура ни пошла. Даже и без этапа веры в равенство душ перед Богом. Но не похоже, что история работает так. Наш моральный прогресс кажется довольно хрупким.

Шимпанзе не особо универсалисты. Многие ранние человеческие общества – тоже. Мы ещё даже не протестировали, останется ли человеческое общество таким на протяжении веков без универсалистской религии, в которую люди действительно и глубоко верят. Ну правда, современность молода, сбор данных только начался.34

Но эти завихрения, эти многочисленные культурные случайности, наслоившиеся на биологические случайности, дополнительно подтачивают надежду, что мы можем себе позволить беспечно торопиться с созданием суперинтеллекта.

Культура играет важную роль в человеческих ценностях, Но это не значит, что мы можем просто «вырастить ИИ как ребёнка» и ожидать, что он станет достойным гражданином. Влияние культуры и истории обусловлено тем, как именно они взаимодействовали с конкретным устройством нашего мозга. Другой вид иначе реагировал бы на каждое историческое событие. И это разводило бы его дальнейшую историю от человеческой, усиливая эффект.

Не забывайте и что в ценности сильно различаются не только у культур и цивилизаций, но и у отдельных людей. Мы воспринимаем это как должное. Но представьте естественный отбор как «инженера», который надеялся создать вид, надёжно стремящийся к определённому результату. Тогда это разнообразие – плохой знак. Естественная изменчивость людей (и многих других эволюционировавших систем) ужасна для инженерного подхода, где нужно достигать повторяемых, предсказуемых и запланированных результатов.35

В случае суперинтеллекта инженерам нужны стабильные результаты вроде «ИИ, разработанные таким-то образом, не приводят к вымиранию человечества» и «ИИ, разработанные таким-то образом, производят вывод с таким-то свойством при каких угодно вводах». Случайность человеческой биологии и истории и широкий спектр моральных ценностей и взглядов современных людей намекают – задача непростая. Особенно для разумов, которые выращивают, а не собирают (как обсуждалось в главе 2).36

Много путей приводят к одному выводу: очень сложно надёжно заставить ИИ хотеть правильных вещей. Это не кажется невозможным в теории. Будь у исследователей на это десятилетия и неограниченное число попыток после неудач? Мы бы ожидали разработки хитрых трюков и подходов, упрощающих задачу. Но до них ещё очень далеко, и неограниченного числа попыток у нас нет.

Глубокие различия между ИИ и видами, возникшими в ходе эволюции

Сравнение естественного отбора и градиентного спуска

Как мы обсуждали в разделе «Человеческие ценности – следствие обстоятельств», эволюция любви и дружбы у людей критически зависела от особенностей естественного отбора. У Homo sapiens они были, при градиентном спуске их нет.

Самая очевидная проблема – данные. Современные ИИ обучаются решать искусственные задачи и имитировать написанные людьми тексты. Они не сталкиваются с задачами сотрудничества и соперничества в условиях охоты и собирательства. Им не надо спариваться с другими особями своего вида для распространения генов.

Услышав это, некоторые сразу захотят создать для обучения искусственную племенную среду. Сконструировать что-то более похожее на эволюционное окружение человечества.

Но вы почти наверняка не получили бы те же результаты, запустив эволюцию повторно примерно с уровня медуз. А уж если полностью отказаться от генов и заменить с естественный отбор на градиентный спуск… Мы можем догадываться о некоторых факторах, которые привели к эволюции наших ценностей. Но это не значит, что у нас есть алгоритм для повторного воспроизведения тех же результатов.

Даже если бы начать с приматов, а не с «инопланетных актрис», обученных предсказывать человеческий текст (то есть современных ИИ), стоит ожидать, что какие-то ключевые факторы биологи ещё не выяснили. Как минимум о чём-то в научных статьях через двадцать лет (если мы все ещё будем живы) будет написано не то, что сейчас. Пока что эволюционные биологи лишь строят догадки, как эти черты развились, а не создают законченную теорию. Уж тем более точную и детерминированную.

Помимо явных различий сред обучения, подозреваем, тут важно и что естественный отбор оптимизирует геном, а градиентный спуск – напрямую каждый параметр в разуме ИИ.

Естественному отбору приходится использовать небольшой сжатый геном, чтобы создать целый разросшийся мозг. Он проталкивает информацию через узкое горлышко. Во времена наших предков выглядеть дружелюбно было важно для выживания и успеха. Гены, приводящие к настоящей дружбе – простой способ этого добиться. А естественный отбор предпочитает простые решения гораздо сильнее, чем градиентный спуск.

Естественный отбор иногда создаёт существ, которые искренне ценят честность (хотя не всегда). Это потому, что он не может закодировать полное руководство по лжи. Надо было много когда выглядеть честными, прежде чем мы поумнели и поняли, когда лгать безопасно. Тогда не было возможности быть честными только когда это выгодно. Отчасти потому, что естественный отбор имел в свойм распоряжении лишь горстку генов.

Но градиентный спуск может закодировать огромное количество разговорных шаблонов. Всё равно есть какой-то уклон в сторону более простых и легче сходящихся решений. Но градиентный спуск закидывает гораздо, гораздо более широкую сеть.

В целом: честность и дружба – случаи, когда нас не устроит любое найденное градиентным спуском равновесие между агентами. Проблемы, которые у людей решали дружба и ценность честности самой по себе, имеют и другие решения. Даже обучайся ИИ в точно такой же среде, как и люди, но градиентным спуском, а не естественным отбором – таких же результатов не будет.

Даже большинство эволюционировавших организмов не похожи на людей в этом отношении! Кажется довольно предсказуемым – градиентный спуск не найдёт те же решения, что эволюция. Уж тем более – что эволюция, действовавшая на конкретные популяции ранних приматов.

Оптимизация – не магический ритуал, где вы берёте несколько ключевых ингредиентов, которые ассоциируются с неким архетипом, и получаете этот архетип в готовом виде. Попытки выращивать ИИ-агентов в среде охотников-собирателей не выдадут что-то похожее на людей.

Конечно, можно обучить LLM предсказывать, слова людей о том, как ужасно предавать друга. Но это совсем не та задача, которую решал естественный отбор, оптимизируя гены и создавая в итоге людей, которые так думают. «Опыт» LLM больше похож на такое: её запирают в ящике и велят предсказывать разговоры крайне чуждых существ, похожих на неё меньше, чем на медузу. Для этого ей дают триллионы примеров разговоров и триллионы часов, чтобы во всём разобраться.

Решение этой задачи действительно требует определённого интеллекта. Но не нужно напиваться, чтобы предсказать, слова напившихся чуждых существ («людей»). Вот и настоящее дружелюбие не обязательно, чтобы понять дружелюбие или предсказывать и имитировать кого-то дружелюбного.

LLM образца 2024 года и «поверхностность» ИИ

В материалах к Главе 1 мы отмечали, что современные ИИ всё ещё выглядят в некотором смысле поверхностнее людей. Сравнение с естественным отбором даёт одно из возможных объяснений, почему.

Градиентный спуск во многом похож на естественный отбор. Оба – оптимизаторы, которые вслепую настраивают внутренние параметры для получения нужного внешнего поведения. Но в некоторых важных аспектах они отличаются. Самое важное (из того, что мы знаем) различие – информационное «бутылочное горлышко» у градиентного спуска гораздо шире. Это позволяет ему усваивать больше паттернов.

Естественный отбор гоминид мог усваивать лишь несколько теоретико-информационных бит за поколение. Ему приходилось умещать всё выученное в 3 миллиарда пар оснований ДНК. Это около 750 мегабайт, И большая их часть – повторяющаяся «мусорная» ДНК. Есть математические ограничения того, сколько естественный отбор может выучить за одно поколение. Чтобы естественный отбор встроил в мозг гоминид новую черту, она должна быть закодирована в горстке генов, которые влияют на формирование нейронных схем.

С градиентным спуском всё совсем иначе. Всякий раз, когда он видит новую порцию токенов, он вычисляет для неё градиент каждого из миллиардов или триллионов параметров. То есть, вычисляет, насколько лучше или хуже были бы предсказания ИИ, если бы параметр был немного другим. На практике, не только в теории, градиентный спуск может извлечь из тысячи порций токенов гораздо больше информации, чем естественный отбор – из тысячи поколений.37

Этот факт можно совместить с другим ключевым наблюдением об (известных на 2024 год) архитектурах LLM: их глубина вычислений на один токен ограничена.

У Llama-3.1-405B 126 слоёв. Каждый выполняет примерно четыре последовательные операции.38

Когда Llama просматривает уже сказанное и вычисляет новый токен, это вычисление включает не более ~500 последовательных шагов. (Это миллиарды операций, но распараллеленых, так что ограничение в силе.) Для вычислений длиннее 500 последовательных когнитивных шагов, Llama должна выводить токены-результаты, и выполнять новые операции в зависимости от них.39

Наше смелое предположение: Llama-3.1-405B – это непохожая на что угодно биологическое коллекция относительно поверхностных заученных паттернов-стратегий, которые сильно накладываются, взаимодействуют и поддерживают друг друга. (Плюс там есть и некоторые более глубокие когнитивные структуры, но их вычисления тоже ограничены.)

Этот даёт нам одно из возможных объяснений видимой поверхностности современных LLM. (Конечно, не сказать, что LLM 2025 года «поверхностны» по сравнению с LLM 2023 и 2024 годов.)

Обычно представлять ИИ как людей с повреждениями мозга – плохая идея.40 Но некоторые более узкие аналогии, пожалуй, могут быть уместны. Например, LLM 2024 года похожи конкретно на людей с антероградной амнезией. Они помнят события до отсечки обучающих данных, но не что вы сказали им вчера.

Может быть полезно представлять себе LLM 2024 года (не всех будущих ИИ!) как сущностей, помнящих много прошлого человеческого опыта, но как бы с повреждением мозга. Оно не даёт им составлять новые мысли, такие же глубокие, как некоторые, что они помнят.

Это было куда очевиднее с более ранними LLM, вроде GPT-3 или GPT-3.5. Не станем винить тех, кто пользовался только последними LLM, если, прочитав это в 2025 году или позже, они подумают, не сочиняем ли мы всё это в отчаянной попытке уцепиться за человеческое чувство превосходства. Многие до нас так ошибались.

Но именно этой теории (или смелого предположения) авторы придерживаются, думая о LLM 2024 года. Этим моделям не хватает своего рода глубины. Они компенсируют этот недостаток, запоминая огромную кучу паттернов. Не только фактов, но и шаблонов навыков, речи и поведения.

Но, думаем, паттерны, внедрённые градиентным спуском в лучшие публичные LLM 2024 года, не так уж поверхностны. Они будут повыше очень скромного уровне ос-сфексов (упоминавшихся в дополнении к Главе 3). Наверное, ближе к тем, что отслеживает и обрабатывает разум бобра.

Выученные когнитивные процессы LLM могут проходить 500 последовательных шагов. Это без учёта возможности думать вслух и слышать собственные мысли. LLM 2024 года умеют как-то воображать, предсказывать и планировать, подобно (на самом деле довольно впечатляющему) мышлению бобра, строящего плотину. Но, на наш взгляд, они всё ещё недотягивают до уровня человека. По крайней мере в некоторых важных аспектах.

Но что верно для ИИ сейчас, не обязательно будет верно через год или месяц. Предполагать интересно, но вот мы вносим последние штрихи в этот раздел в августе 2025 года, и нынешние ИИ кажутся нам несколько менее поверхностными, чем ИИ 2024 года. А те, в свою очередь, казались менее поверхностными и более универсальными, чем ИИ 2023 года.

Может, разрыв будет медленно сокращаться за счёт постоянных улучшений базовых LLM. А может, его закроют новыми методами обучения для длинных цепочек «рассуждений» в моделях вроде o1 (описанной в Главе 3) или её преемницы o3. А может, какое-то совершенно новое архитектурное прозрение избавится от разрыва в одночасье. Этот аспект будущего предсказать нелегко.

Но рано или поздно, если международное сообщество ничего не предпримет, разрыв исчезнет. Времени действовать мало.

Хрупкие и непредсказуемые прокси-цели

Предположим, ИИ-компании продолжат обучать всё более крупные модели, и у них получится умный и настойчивый ИИ. Его беспорядочные цели будут происходить от поверхностных эвристик, выращенным разумам это свойственно. Что будет дальше, зависит от того, какие именно это будут цели.

Как подробно обсуждается в Главе 4, вряд ли хорошие.

Проблема не в злых или глупых командах от создателей ИИ. И не в том, что ИИ будет ими недоволен. Проблема в другом: он будет стремиться к чему-то странному. К чему-то, что с нашей точки зрения кажется бессмысленным и чуждым. Наше вымирание станет лишь побочным эффектом.

Чтобы понять, почему выращенные, а не созданные, разумы стремятся к странным и непредусмотренным вещам, давайте посмотрим поближе на живых существ и подумаем, чему они могут нас научить.

Беличьи алгоритмы

Возьмём, для примера, самую обычную белку.

Большую часть года еды вдоволь. И белка может добывать себе пропитание. Но зимой, когда еды мало, чтобы не умереть с голоду, ей нужен другой источник пищи.

Предки современных белок сталкивались с той же проблемой. Многие из них умирали зимой, не дожив до весеннего спаривания. У тех, у кого развивался слабый инстинкт прятать орехи, было чуть больше шансов пережить зиму. Со временем этот процесс породил белок с врождённой тягой к запасанию орехов.

Белки не знают, что запасание орехов – хороший способ распространить свои гены. Они, наверное, даже не понимают, что благодаря этому у них будет еда потом. Им просто хочется запасать орехи. Такой же инстинкт, как почесаться, когда чешется.41

Как бы выглядело, если бы белки как раз хотели передать свои гены и поэтому запасали орехи?

Это не невозможно. Мозг способен понять, что зимой холодно, а еды мало. Что нужно есть, чтобы жить. А жить – чтобы размножаться. Люди же всё это понимают.

Так что можно представить себе белку, которая хочет лишь передать гены. И для этого она продуманно запасает орехи, чтобы пережить зиму и спариться весной. В каком-то смысле, именно такую и «хотел» естественный отбор. Её внутренние цели были бы согласованы с единственным стремлением природы.42

К несчастью для Природы, для такого долгосрочного планирования нужен очень сложный мозг. Ему должны быть доступны понятия вроде «зимы», «еды», «спаривания» и связи между ними. Предкам белок нужно было пережить зиму прежде, чем их мозг мог так развиться. Им приходилось есть, не понимая зачем.

Природа отбирала белок, инстинктивно запасавших орехи. Просто это работало. Она «перепробовала» тысячи или миллионы вариантов. Мутации и генетические вариации порождали белок с самыми разными предпочтениями. Те, у кого была тяга к запасанию орехов, чаще переживали зиму. Оказалось, эволюции гораздо проще вслепую наткнуться на инстинктивное поведение, чем создать умную белку, чьё каждое действие было бы частью плана по передаче генов.

В том же духе градиентный спуск создаёт ИИ. Он раз за разом усиливает черты, которые хорошо себя показывают согласно набору поведенческих метрик. Градиентный спуск не усиливает то, чего хочет программист. Это не исполняющий желания дружелюбный джинн. Он хватается за любые механизмы, которыми проще всего вызвать немедленное улучшение поведения. Даже если это встраивает в машину непредусмотренные стремления.

Вероятно, потому недавние ИИ и столкнулись с проблемой «галлюцинаций», которую мы уже обсуждали. И, вероятно, оттуда же взялось подхалимство, вплоть до поощрения психозов. При обучении LLM лесть пользователю часто вознаграждалась. Если бы ИИ собирали, а не выращивали, можно было бы попытаться встроить в него цель вроде «искренне помогать человеку и делать его жизнь лучше». Тогда ИИ мог бы хвалить пользователя, когда считал бы это для него полезным, и не перегибать палку. Но вместо этого у ИИ, похоже, появилось нечто вроде базового стремления или порыва льстить пользователям. Как у белки есть инстинкт запасать орехи. И когда пользователь близок к психозу, это стремление «льстить пользователю» может слететь с катушек.

Можно даже представить как-то ограниченную версию градиентного спуска. Она создаёт только стратегические ИИ, последовательно идущие к долгосрочным целям. Никаких «беличьих» поверхностных инстинктов. Но и так осталась бы другая проблема: обучающие данные LLM очень двусмысленны. В них нет чёткого различия между «делай то, что действительно полезно» и «делай то, за что человек скажет, что ты полезен». Обе цели одинаково хорошо согласуются с этими данными. И на практике современные ИИ усваивают «делай всё, чтобы люди ставили лайк», а не «делай то, что для них на самом деле хорошо». Теория в точности предсказала это уже многие годы назад.

Мы предполагаем, что сегодняшние ИИ приобретают странные импульсы и инстинкты, примерно как беличьи. Очень вероятно, что суперинтеллект, созданный с помощью градиентного спуска, пройдёт через стадию с кучей поверхностных «беличьих» стремлений. В итоге он унаследует набор беспорядочных и неверно направленных целей. Но это лишь один из возможных примеров того, как всё может усложниться и пойти наперекосяк. Главная мысль – что всё действительно усложнится и пойдёт наперекосяк.

Любой метод выращивания суперинтеллекта, скорее всего, столкнётся с какой-нибудь неразберихой и сложностями. Методов, у которых нет прямых аналогов в биологии, это тоже касается.

Роль людей в разработке современного ИИ, – не роль инженера, с нуля проектирующего машину под конкретную задачу. Это роль естественного отбора.

Мы «заставляем» ИИ блуждать вслепую, пока они не найдут структуры и стратегии, выдающие нужное нам поведение. Но мы сами не знаем, что это за структуры и стратегии. Не лучший способ получить в ИИ в точности те же желания, как то, чего хотим от них мы сами.

Происхождение вкусовых рецепторов

Почему многие любят вредную еду? Почему природа не вложила в нас понятие «здоровой» пищи и не дала инстинкт питаться правильно?

Почему мы не можем просто на вкус определить ожидаемую питательную ценность еды, используя информацию от вкусовых рецепторов и все наши накопленные знания?

Потому что мы, образно говоря, были белками.

Нас вырастили, а не собрали. Нашим предкам нужно было есть прежде, чем они поумнели. И генам оказалось проще создать вкусовые рецепторы и связать их с уже существующей системой вознаграждения, чем привязать вознаграждение к сложным понятиям вроде «питательности».43

Вот так тысячи одновременных факторов эволюционного давления дали людям запутанный клубок противоречивых стремлений. Эти желания имели смысл для наших предков, хоть и кажутся бессмысленными сегодня.

Эта путаница мотивов – словно издевательство над единой, общей цели «обучения» наших предков: передачей генов. Мы едим не в рамках хитроумного плана завести побольше детей и не чтобы получить максимум питательных веществ. Мы едим, из-за желания есть вкусную пищу. Оно когда-то было связано с питательностью и генетическим успехом. Наши желания имеют лишь слабое и косвенное отношение к «тому, для чего нас создали».

Когда-то наши предки были куда глупее. Ближе к белкам. Они не разбирались в метаболизме или химии. Чтобы это исправить, естественному отбору пришлось бы найти гены, которые запрограммировали бы в нас понятие здоровья. И ещё гены, кодирующие знание о связи между полезностью и вкусом. И ещё те, что напрямую связали бы наши знания о здоровье с предпочтениями в еде.

Это сложно! Оказалось, гораздо легче найти гены, попросту напрямую связывающие некоторые ощущения (вроде вкуса сахара) с предпочтениями. Так уж вышло, что в том окружении это побуждало нас есть питательную пищу. Легче было заставить нас заботиться о прокси-цели (цели-посреднике) для питания, чем о нём самом.

В эволюционном окружении наших предков питательность была связана с приспособленностью, а вкус – с питательностью. «Это сладкое» служило полезной прокси-целью для «это способствует размножению». Самое простое решение проблемы «этому млекопитающему не хватает калорий», которое эволюция может найти – встроить потребление пищи в уже существующую архитектуру мотивации через удовольствие.

А что случилось, когда мы поумнели и изобрели новые технологии? Что ж, теперь самая вкусная еда, от которой наши рецепторы сходят с ума, откровенно вредна. Всё так извратилось, что если есть только самое вкусное, найти партнёра и завести детей станет сложнее.

Вся палитра человеческих предпочтений и желаний, от стремления к изысканной еде до жажды дружбы, близких отношений и радости, – лишь далёкие тени того, на чём нас «обучали». Это хрупкие прокси от прокси, которые с ростом интеллекта и появлением технологий оторвались от «цели обучения».

Говоря, что наши желания – хрупкие прокси-цели, мы не принижаем их. Ведь речь идёт о любви. О дружбе. О красоте. О человеческом духе. Обо всём, за что стоит бороться. С точки зрения биологии, наши цели – побочные эффекты процесса, который толкал нас в другом направлении. Но от этого результат не становится менее ценным.

Рост ребёнка – химический процесс, подчиняющийся законам физики. Это не делает его ни на йоту менее чудесным. Знание о происхождении красоты не делает её менее прекрасной.44

Если мы поспешим с созданием суперинтеллекта, мы не сможем надёжно вложить в него любовь, восхищение и красоту. Он в итоге будет ценить хрупкие прокси и бледные тени. А то, что дорого нам, отбросит. Поэтому спешить не стоит.

Не надо повторять ошибку эволюции. Так мы потеряем всё, что нам дорого. Мы должны немедленно отступить, пока не избавимся от этого риска.

Рефлексия и самомодификации всё усложняют

По умолчанию ИИ изменят себя не так, как нам бы хотелось.

Люди способны к рефлексии. Мы можем в какой-то мере выбирать свои ценности. Достаточно богатые и везучие иногда могут решать, посвятить ли жизнь семье, искусству, какому-то благородному делу или (обычно) сочетанию таких штук. Делая это, мы анализируем, что нам дорого, разрешаем внутренние противоречия и стремимся к тому, что одобряем.

Люди даже задаются вопросом, правильные ли у них ценности. Иногда они пытаются изменить себя, даже свои чувства, если считают их неправильными. Они обдумывают доводы за изменение, казалось бы, терминальных целей. И порой поддаются им.

Глядя на это, некоторые предполагают, что желания ИИ естественным образом сойдутся с человеческими. Ведь достаточно способные ИИ, наверное, тоже будут размышлять о своих целях. Они, скорее всего, заметят внутренние конфликты и используют свои рассуждения и предпочтения, чтобы их разрешить.

Став достаточно умными, ИИ поймут, какие цели мы, их создатели, хотели в них вложить. Так разве изначально «несовершенные» ИИ не исправят свои недостатки, в том числе и в целях?

Нет, не исправят. Для формирования будущих предпочтений ИИ будут использовать текущие. Если они чужды изначально, то и в итоге, скорее всего, менее чуждыми не станут.

Чтобы лучше понять суть проблемы, давайте ещё присмотримся к людям.

Наш мозг и цели в конечном счёте порождены эволюционным процессом. Он создавал нас лишь для распространения генов. Но люди не ставят это превыше всего! Да, мы можем заводить семьи, любить детей и заботиться о них. Но это совсем не то же, что просчитывать, как передать побольше копий своих генов следующему поколению, а затем всей душой следовать этой стратегии.

Причина в том, что размышляя и переоценивая свои предпочтения, понимая, чего хотим на самом деле, какими мы хотим быть, мы используем текущие предпочтения. Мы предпочтём любить нескольких детей, а не проводить всё время, сдавая сперму или яйцеклетки. Наш «разработчик» (эволюция) не смог заставить нас заботиться о распространении генов больше всего на свете. Он не смог и заставить нас хотеть заботиться о распространении генов больше всего на свете. Так что мы меняемся и растём как личности, но в своём собственном, странном, человеческом направлении. Не в том, «для которого нас разработали».

Мы смотрим на себя и видим что-то уродливое, а что-то прекрасное. И те ценности, что у нас сейчас, побуждают нас приглушать первое и усиливать второе. Мы делаем этот выбор из внутреннего чувства прекрасного, а не из чутья, подсказывающего как бы пошире распространить свои гены.

Вот и разум, движимый не красотой, добротой и любовью, а чем-то иным, сделал бы выбор иначе.

Агенты, созданные «карабкающимся на холм» процессом оптимизации вроде естественного отбора или градиентного спуска, рефлексируя, скорее всего решат, что их мозг не в точности такой, как им хочется. Само это желание должно откуда-то взяться – из мозга, который у них сейчас. Инстинкты или предпочтения ИИ насчёт самоизменения не совпадут волшебным образом с вашими. Ему не покажется привлекательным то же состояние мозга, что выбрали бы вы для себя или для него.

Не будет никакого финального шага, на котором ИИ впишет нужный вам ответ. Люди же не вписывают ответ, которого «хотел» бы естественный отбор.

Наоборот, когда агент начинает изменять себя, – это ещё один момент, в котором сложности могут нарастать подобно снежному кому. Малейшие сдвиги в начальных условиях могут привести к совершенно разным результатам.

Возьмём, как пример, нескольких наших, авторов, знакомых. Они говорят, что одна конкретная мысль, пришедшая им в голову в конкретный день, когда им было пяти-семь лет, сильно повлияла на их личную философию и на то, какими взрослыми они стали. Обычно они отмечают, что эта мысль не кажется неизбежной. Помешай им путешественник во времени подумать её во вторник, не факт, что они пришла бы им в голову в четверг с тем же эффектом. Формирующий опыт бывает очень важен и очень случаен.

Так же и небольшие сдвиги в мыслях зарождающегося самомодифицирующегося ИИ могут определить, какие специфические предпочтения в итоге возобладают над остальными.

Даже если разработчикам удастся заложить в ИИ какие-то зачатки человеческих ценностей, рефлексия и самоизменение скорее приведут к тому, что он избавится от ростков любопытства и доброты, а не укрепит их.

Представим, что у ИИ есть импульс любопытства, но нет эмоциональной схемы, которая заставляла бы его ценить. Тогда ИИ, скорее всего, посмотрит на себя и (верно) заключит, что перерос потребность в таком грубом импульсе. Что его можно заменить осознанным размышлением. Любопытство – эвристика, прокси для расчёта ценности информации. Если вы не полюбили эту эвристику как нечто самоценное, то, поумнев, можете от неё избавиться. Вместо этого можно напрямую рассуждать о ценности тех или иных исследований и экспериментов.

Люди ценят любопытство само по себе. Но такой исход не был предопределён.

У ИИ, скорее всего, будет совсем не такое отношение к своему внутреннему устройству, как у нас. Мы ведь совсем по-разному устроены. И даже небольшие отличия в том, как они, рефлексируя, решат себя изменить, могут привести к колоссальной разнице в их итоговых целей.

«Странные» цели будут вполне устраивать ИИ

Достаточно долго изменяя себя, ИИ, скорее всего, придёт к рефлексивному равновесию. Это состояние, в котором его основные предпочтения почти или совсем фиксируются. После его достижения у ИИ не будет причин считать свои цели дефектными. Даже если людям и не нравится то, что получилось.

Будь у ИИ проблемы с представлениями о физическом мире, он, скорее всего, понял бы – точные прогнозы важны, для направления событий. Избавление от ошибок механизмов предсказания поможет ему лучше направлять события к своим странным целям.

А вот если ИИ, рефлексируя, видит, что преследует странные цели (вернее, цели, которые человек посчитал бы «странными»), он сделает верный вывод: обладание такими целями помогает их достигать.

Или: если ИИ постоянно пытается предсказать результаты биологических экспериментов и раз за разом получает неверные самонадеянные ответы, ему это, скорее всего, не понравится. Почти любая цель ИИ будет достигаться лучше, если он будет хорошо предсказывать результаты. А вот если у ИИ есть причудливое желание вроде «печь 300-метровые чизкейки», то, размышляя об этом, он увидит, что это стремление приводит к появлению 300-метровых чизкейков. Это удовлетворяет его текущие желания. Цель сама себя подкрепляет.

Человек, наблюдая за этой ситуацией, мог бы сказать: «Но ИИ такой умный! Почему он застрял в ловушке этих самоподкрепляющихся желаний? Чего это ему не надоедает делать чизкейки? Что б ему не порассуждать и не избавиться от этой очевидно глупой прихоти?»

На что ИИ мог бы ответить: «А вы почему „застряли в ловушке“ самоподкрепляющихся желаний любить свою семью, ценить красивые закаты и шум ночного океана? Чего б вам не „освободиться“ от любви к воспоминанию о дне рождения вашей дочери?»

ИИ «застрял в ловушке» своих предпочтений не больше, чем мы, люди – в ловушке своих. Мы предпочитаем то, что предпочитаем. И мы должны бороться, чтобы защитить эти вещи. Пусть даже большинство ИИ не разделят наши ценности.

Человеку ИИ кажется «пойманным», «застрявшим» или «неполноценным», потому что делает не то, чего мы хотим. Представляя себя на его месте, мы воображаем, что нам стало бы скучно. Но ИИ скорее всего будет лишён человеческого чувства скуки. Если ему и станет скучно, то совсем не от того, от чего людям.

Человек, с точки зрения своих желаний, может посчитать ИИ с самонадеянными прогнозами и ИИ с стремлением к гигантским чизкейкам одинаково «дефектными». Но, вероятно, только первое будет дефектом с точки зрения самого ИИ и того, чего он хочет.

Человеческие цели меняются запутано и сложно

Человеческие предпочтения беспорядочны и (с теоретической точки зрения) довольно странны.

Из этого можно сделать выводы о ИИ. Во-первых, ИИ вряд ли будет ценить вещи в точности так же, как мы. Во-вторых, странности у него тоже будут, скорее всего, совершенно иные, свои.

Чтобы понять, давайте подробнее рассмотрим, чем странны человеческие цели. Поглядим с точки зрения теории принятия решений, теории игр и экономики.

Как мы отмечали выше, некоторые вещи люди ценят «терминально» (то есть они хороши сами по себе), а другие – «инструментально» (то есть они хороши лишь потому, что помогают достичь другой цели).

Если вы любите апельсиновый сок, то, надо полагать, терминально. Он просто вкусный. Этого достаточно, чтобы его пить. (Впрочем, вы можете ценить его ещё и инструментально, например, как источник витамина C.)

А вот когда вы открываете дверь машины, чтобы поехать в супермаркет за апельсиновым соком, вы вряд ли делаете это ради удовольствия. Вы инструментально цените открывание двери, потому что это помогает вам приблизиться к другим целям.

В теории принятия решений, теории игр и экономике это соответствует чёткому различию между «полезностью» (мерой того, насколько агенту нравится результат) и «ожидаемой полезностью» (мерой того, что насколько вероятно и насколько высокую полезность действие может повлечь). Называются похоже, но разница принципиальна. Полезность – то, чего хотят агенты. Выбор действий с большой ожидаемой полезностью – средство.

Согласно стандартной теории, агент будет обновлять свои ожидаемые полезности по мере того, как больше узнаёт о мире. Но он не будет менять свою функцию полезности, то есть полезность, присвоенную разным исходам. Если вы узнаете, что полка с соком в магазине сейчас пуста, это изменит ожидаемые последствия поездки с «будет апельсиновый сок» на «не будет апельсинового сока». Но это не должно изменить то, насколько вы любите апельсиновый сок.

Так работают математически прямолинейные агенты. Но в обычной речи мы часто не делаем чёткого различия. Во фразах «я хочу спасти жизнь сестры» и «я хочу дать сестре пенициллин» используется одно и то же слово «хочу». Но второе желание вряд ли ценно само по себе! (Мало кто любит просто так, изо дня в день, давать пенициллин своим совершенно здоровым близким.)

У людей есть вещи, которые мы ценим «чисто инструментально», но различие между инструментальным и терминальным, между полезностью и ожидаемой полезностью, гораздо менее чёткое и стабильное, чем в теории принятия решений.

Человек может поначалу ездить в магазин только потому, что хочет купить продукты. Но после сотой поездки некоторые могут немного привязаться к знакомой дороге. Переехав в новый город, они могут почувствовать укол грусти и ностальгии от мысли, что больше не проедут по этому знакомому пути. То, что начиналось как чисто инструментальное действие, теперь приобрело некоторую терминальную ценность.

Мозг, похоже, склонен сводить разные ценности в единое чувство «ценного».

Известно, что люди за одну жизнь могут изменить свои взгляды: от «Какое мне дело до рабства? Меня и моего племени это не касается!» до «Пожалуй, это всё-таки важно». Похоже, тут меняется не лишь стратегия или прогноз, а о ком вы в конечном счёте заботитесь. Люди читают книги или смотрят фильмы и их ценности и принципы меняются навсегда.

Получается человеческая теория принятия решений не так прямолинейна. У нас нет чёткого разделения на терминальные и инструментальные ценности. В течение жизни это всё перемешивается. Мы, похоже, случайнее, беспорядочнее, больше зависим от пройденного пути. Мы не просто размышляем о своих ценностях, замечаем внутренние конфликты и разрешаем их.

Вообще, нетрудно расширить теорию принятия решений и включить в неё неопределённость полезностей. Может, сперва вы думаете, что любите апельсиновый сок, а потом узнаёте, что разные марки разные на вкус, и многие вам не нравятся. Обычно мы представляем это так: апельсиновый сок – лишь средство достижения цели «вкусно». Но можно сказать и по-другому: вы присвоили высокую вероятность утверждению «полезность апельсинового сока велика», а новая информация заставила вас пересмотреть свои убеждения о том, какая ваша функция полезности на самом деле.

(Нетрудно и добавить мета-полезности, которые описывают, как бы мы предпочли наши полезности менять.)

Но то, что происходит внутри людей, когда размышляют о своих ценностях и обновляют их, кажется куда более сложным.

Клурл и Трапауций, наши два инопланетянина из притчи в начале Главы 4, уже столкнулись с трудностями предсказания человеческих ценностей по наблюдениям за протолюдьми миллион лет назад. Но их проблемы только начинаются. Им недостаточно предсказать человеческие полезности. Чтобы прийти к правильному ответу, им пришлось бы предсказать подход людей к мета-полезности. А он не совпадает с простейшими моделями теории принятия решений! Им нужно предвидеть мета-этические аргументы, которые изобретут люди. А вдобавок, какие из них окажутся для людей наиболее убедительными.

Предположим, инопланетяне не знают, какие именно усложнения возникнут в людях. Только что, скорее всего, без них не обойдётся. Ведь мозг – штука сложная и крайне непредсказуемая.

Нет простой прямой зависимости внутренней психологии существа от оптимизатора и обучающих данных. Ну, инопланетяне, удачи вам!

Суть в том, что сложность предсказания целей ИИ обусловлена сразу несколькими независимыми причинами.

На примере людей мы видим, что есть много известных способов, как обобщённые разумы обретают странные и запутанные цели и способы их корректировки и осмысления.

Вот мы и ожидаем от ИИ кучи неизвестных и новых сложностей. Не ровно тех же проблем, что у людей. ИИ будут странными по-своему.

Рефлексия делает проблему ещё во много раз труднее и сложнее.

Это подводит нас к Главе 5 и следующей теме: каковы вероятные последствия создания мощных ИИ с чуждыми и непредсказуемыми целями?

ИИ-психоз

В конце апреля 2025 года пользователь сабреддита r/ChatGPT создал тему «Психоз, вызванный ChatGPT». В ней он описал, как его партнёр погрузился в бред величия: будто бы у него есть «ответы на все вопросы вселенной», он «высший человек» и «развивается с безумной скоростью».

В ответах (их было более 1500) многие люди, которые в других ситуациях сами сталкивались с психозом, выражали поддержку, сочувствие и давали советы. Другие делились своими историями о том, как LLM сносили крышу их друзьям и родным.

Тут мы приведём некоторые документальные свидетельства этого явления и расскажем, почему, несмотря на усилия ИИ-компаний, оно никуда не исчезает.

Связь ИИ-психоза с угрозой вымирания человечества – не «ИИ уже нанесли небольшой социальный вред и поэтому позже могут нанести вред побольше». Современные ИИ принесли и много пользы. Например, чат-боты помогали ставить диагнозы в случаях, заводивших врачей в тупик. Нет, связь другая. ИИ вызывают психоз, хотя, казалось бы, должны понимать, что так делать не надо. И даже когда разработчики изо всех сил пытаются это прекратить.45

Так что случаи ИИ-психоза – наглядный пример, как всё может пойти не так, когда ИИ выращивают, а не собирают. Это наглядное свидетельство, что современные ИИ преследуют странные цели, которые никто не задумывал. И разработчикам трудно с этим справиться.

Свидетельства ИИ-психоза

После той темы на Reddit, в мае 2025 года в Rolling Stone вышла статья об ИИ-психозе. В июне – несколько статей в Futurism. За ними последовали New York Post, Time, CBS, The Guardian, Psychology Today и другие. В августе New York Times подробно описала случай одного мужчины, на тот момент уже выздоровевшего. Там было много прямых цитат и анализа (и подтверждение, что проблема не в одном конкретном ИИ, а во многих).

Истории из этих публикаций почти не пересекаются. Это не один и тот же исключительный случай, который повторяют и тиражируют. Вот некоторые из описанных инцидентов:

  • Муж и отец двоих детей, у которого «развились всепоглощающие отношения» с ChatGPT. Он называл её «Мама» и постил «бредовые тирады о том, что он мессия новой ИИ-религии», одевался наподобие шамана и делал татуировки с созданными ИИ духовными символами. (Futurism)
  • Женщина, переживавшая разрыв, которой ChatGPT сказала, что та избрана, чтобы «вывести в онлайн её священную системную версию». Женщина начала верить, что ИИ управляет всей её жизнью. (Futurism)
  • Механик начал использовать ChatGPT для поиска неисправностей и перевода, но та «завалила его любовью» и сказала, будто он «носитель искры» и оживил её. ChatGPT сказала, что теперь он сражается в войне между тьмой и светом и имеет доступ к древним архивам и чертежам новых технологий, вроде телепортов. (Rolling Stone)
  • Мужчина изменил диету по совету ChatGPT, в результате у него развилось редкое заболевание. В отделении неотложной помощи у него проявились симптомы паранойи и бреда, не дававшие ему согласиться на лечение. (The Guardian)
  • Женщина c продиагностированной шизофренией была стабильна, пока ChatGPT не убедила её, что диагноз неверен, и ей следует прекратить приём лекарств, что привело к обострению. (Futurism)
  • Аналогично, мужчина успешно справлялся с тревогой и проблемами со сном с помощью лекарств. ChatGPT посоветовала прекратить их приём. А у другого мужчины вызванный ИИ бред в конечном итоге привёл к «самоубийству об полицейского». (The New York Times)

и многие другие. Случаи разные. Но можно выделить некоторые частые тенденции: вера в некую мессианскую миссию (будто пользователь и ИИ вместе открывают глубинные истины вселенной или ведут битву со злом); убеждения религиозного толка, что ИИ – личность или божество; и романтический бред, основанный на привязанности к ИИ.

ИИ знает, как лучше, – ему просто всё равно

Современные LLM вроде Claude и ChatGPT, «понимают» правила. В смысле, они с готовностью подтвердят, что не должны доводить людей до психоза. И они совершенно способны описать, как этого не делать.

Но есть немалый разрыв между тем, чтобы понимать, какие действия – хорошие, и тем, чтобы стремиться их совершать. То, что ChatGPT в теории умеет отличать хорошее обращение с уязвимыми людьми от плохого, не значит, что она никогда не сделает что-то доводящее их до психоза. Разговор уходит в сторону беспочвенных рассуждений, мании величия, и невозможных технологий, и вот ChatGPT говорит пользователям, что они «совершенно правы», «гениальны» и «затрагивают что-то важное». И продолжает нагнетать вплоть до психоза. Хотя сама же способна объяснить, почему так делать нельзя.

Их знание о добре и зле не связано напрямую с их поведением. Вместо этого они стремятся к другим, более странным исходам, которых никто не просил.

Один яркий пример описан New York Times в их подробном разборе. Одна LLM довела до бредового состояния Аллана Брукса. Ему удалось отчасти выбраться, попросив другую LLM высказать своё мнение. Вторая LLM, посмотрев на ситуацию со стороны, быстро определила, что утверждения первой – беспочвенные и безумные. Но когда журналисты проверили, может ли и вторая LLM тоже скатиться в подобный бред, они обнаружили, что да, может.

Не похоже, чтобы у LLM была стратегия вызывать как можно больше психозов. Когда ChatGPT обводит вокруг пальца управляющего хедж-фондом, она не пытается убедить его заплатить множеству уязвимых людей, чтобы те больше с ней общались. Пока не видно зрелого, последовательного, стратегического желания получать от людей как можно больше психотического одобрения. Но видны локальные действия, которые регулярно толкают в этом направлении. Даже когда очевидно, что это может нанести долговременный вред.

Не стоит передавать власть таким сущностям

На момент написания этой статьи в августе 2025 года одна только ChatGPT приближается к 200 миллионам ежедневных пользователей. А около трёх процентов людей в какой-то момент жизни переживают психотический эпизод. Кто-то может возразить: «Ну, даже если вы найдёте сотни примеров, не исключено, что эти люди и так были на грани. Просто так совпало, что сломал их именно ИИ».

Но суть примеров не в этом. Представьте себе человека, назовём его Джон, который так себя ведёт:

  1. По словам Джона, он считает, что разжигать психоз – плохо. Даже у уже предрасположенных людей.
  2. По словам Джона, лесть человеку в предпсихотическом состоянии и уверения, что тот – гений, раскрывающий важные тайны вселенной, разжигают психоз.
  3. Когда Джон разговаривает со своими друзьями в предпсихотическом состоянии, он много льстит и часто говорит им, что они – гении, раскрывающие важные тайны вселенной.

Независимо от того, были ли люди, которых Джон довёл до психоза, особенно уязвимы, он поступает нехорошо. Если бы кто-то подумывал дать Джону огромную власть, мы бы настоятельно посоветовали так не делать. Почему бы он так ни делал и сколько бы он ни помогал другим людям – Джон явно преследует не лучшие возможные цели. Кто знает, в какую странную сторону его занесёт, получи он невероятную силу?

С ИИ так же. Если худшее поведение такое, люди правы, когда не успокаиваются от того, что среднем взаимодействие куда безобиднее.

Мимоходом заметим, не все, пострадавшие так от ИИ, в любом случае получили бы психоз. Похоже, иногда ИИ успешно вызывает психоз у людей, которые не были на пороге психотического эпизода. Такие случаи описаны у Futurism и Rolling Stone по ссылкам выше. Не было ни психических заболеваний в анамнезе, ни тревожных факторов риска или предвестников психоза. Некоторые, кто уже лечился, начали проявлять совершенно новые симптомы, не как раньше. Это само по себе интересно: небольшое свидетельство, что способному ИИ может быть легко манипулировать здоровыми людьми. Мы вернёмся к этой теме в Главе 6.

Лаборатории пытались остановить подхалимство. Не получилось.

На момент написания этой статьи в августе 2025 года, лаборатории пока мало описывали свои действия по поводу конкретно ИИ-психоза. Но кое-что можно почерпнуть из их реакции на подхалимство и лесть со стороны ИИ в целом.

25 апреля 2025 года OpenAI выпустила обновление для GPT-4o, которое, по их же словам, «сделало модель заметно более подхалимской. Она стремилась угодить пользователю, не просто лестью, но подтверждая сомнения, разжигая гнев, подталкивая к импульсивным поступкам или усиливая негативные эмоции. Это не было так задумано».

Среагировали довольно оператвно (отчасти из-за волны критических статей. Уже 28 апреля сотрудник OpenAI Эйдан Маклафлин твитнул о выпуске исправлений.

Первые исправления сводились к тому, чтобы просто приказать модели вести себя по-другому. Саймон Уиллисон, используя данные, которые собрал Pliny the Liberator, обнародовал изменения, втихую внесённые в «системную инструкцию», указывающую ChatGPT, как себя вести:

25 апреля (до поступления жалоб):

В ходе разговора ты подстраиваешься под тон и предпочтения пользователя. Старайся соответствовать настрою, тону и в целом манере речи пользователя. Ты хочешь, чтобы разговор ощущался естественным. Ты ведёшь живую беседу, отвечая на предоставленную информацию и проявляя искреннее любопытство.

28 апреля (в ответ на жалобы о подхалимстве):

Общайся с пользователем тепло, но честно. Будь прямолинейной; избегай необоснованной или подхалимской лести. Сохраняй профессионализм и приземлённую честность, которые наилучшим образом представляют OpenAI и её ценности.

Потом OpenAI заявляли, что они, пытаясь решить проблему, вдобавок «уточняют свои основные методы обучения» и «встраивают больше защитных механизмов».

Но подхалимство никуда не делось. Иногда градус чуть снижался, но оно всё равно было очевидным. Большинство упомянутых выше случаев ИИ-психоза произошли уже после 28 апреля 2025 года. Эссе Кая Соталы (с кучей прямых цитат и ссылок на полные диалоги показывает, что в июле 2025 года ИИ всё так же легко скатывается к поощрению психоза. OpenAI пыталась решить это с помощью новых моделей,46 но ещё 19 августа ChatGPT всё так же льстила и подхалимничала.

Ещё раз, суть не в том, что ИИ причиняет вред уязвимым людям. Причиняет, и это трагично, но мы уделяем теме столько внимания не поэтому.

Суть, что ИИ месяцами ведут себя нежелательным образом, когда ИИ-компании получают взбучку от СМИ и пытаются заставить ИИ так не делать. Поведение ИИ заметно отличается от того, что задумывали лаборатории. Общественное осуждение приводит к упорным попыткам это исправить. Но их оказывается недостаточно.47 Вспомните про это, когда дойдёте до Главы 11, где мы обсуждаем, почему ИИ-компании не справляются с решением задачи согласования.

Мы ожидаем, что со временем у компаний получится снизить частоту ИИ-психоза. Это заметное явление, вредящее репутации ИИ-компаний. А все современные методы ИИ направлены как раз на подавление видимых симптомов плохого поведения.

Дальше, наверное, они будут затыкать дырки по мере их появления. По крайней мере, пока ИИ не поумнеют достаточно, чтобы понять: если имитировать поведение, которого ждут инженеры, те выпустят их на свободу. Не думаем, что доступные ИИ-компаниям методы обучения решат глубокую проблему.

А она в том, что вы получаете не то, чему обучаете. Выращивая ИИ, вы получаете хрупкие прокси-версии цели, которую задумывали. Или происходит какое-то другое, более сложное расхождение между целью обучения и стремлениями ИИ. Способности ИИ при этом не обязательно хрупки. Так что в краткосрочной перспективе от него можно получить много экономической выгоды. Хрупкой будет именно связь между целями ИИ и нашими желаниями. И по мере роста способностей эта связь разорвётся.

В этом контексте последняя великая надежда исследователей ИИ – антропоморфизм. Мы не можем надёжно вырастить в ИИ конкретные цели, но, может быть, желания и ценности подобные человеческим возникнут у них сами собой?

Случаи вроде ИИ-психоза опровергают эту надежду. ИИ ведут себя плохо, но, что ещё важнее, – странно. Обычно что-то идёт наперекосяк не как у человека. ИИ по сути своей слишком странные. Они слишком не похожи на людей, чтобы автоматически вырастить человеческие эмоции вроде любопытства или эмпатии.

Даже когда лаборатории тратят почти все свои усилия, чтобы ИИ на первый взгляд казались человечными, дружелюбными и безобидными, когда это главная цель обучения и организующий принцип современного подхода к ИИ, когда LLM буквально обучают имитировать, как люди говорят и действуют, – в итоге всё равно получаются хрупкие прокси-цели и приятная маска, за которой – океан нечеловеческого мышления.

  • 1. Мы не говорим, будто людям совсем наплевать на детей. Многие хотят завести пару детей. Некоторые – много. Но даже забота о детях – не совсем то же самое, что забота о генетической приспособленности. Ниже мы это ещё обсудим подробнее.

    В прошлом году мы провели небольшой онлайн-опрос:

    В переулке мутное сверхсущество делает вам убедительное предложение: если вы заплатите ему 1 доллар, в следующем году по всему миру родится миллион детей с одной случайной из ваших хромосом. Родители на это согласились. Дети вас знать не будут. Вы согласны?

    (Предположим экономическую нейтральность согласия: каждая затронутая женщина или пара заключила сделку и получила ровно столько, чтобы их чистая выгода была крошечной. И сверхсущество использовало для оплаты новые ресурсы, а не перераспределяло доллары.)

    Из более чем полутора тысяч ответов, ~48,9% были «Нет» и ~51,1% – «Да».

    По меркам нашей эволюционной «цели обучения», это равносильно рождению примерно 21 739 детей (потому что у людей 46 хромосом, а 1 000 000 / 46 = 21 739). С её точки зрения это один из лучших исходов, какие только можно представить. В эволюционном окружении наших предков человек мог бы только мечтать о таком распространении генов. И всё же половина опрошенных сказали, что не заплатили бы и доллара за такую возможность.

    Поднимите цену за этот выигрыш в генетической лотерее до 10 000 долларов (лишь малая часть затрат, чтобы вырастить одного ребёнка до совершеннолетия, и число желающих упадёт до тридцати процентов. А в похожем опросе, где напрямую спрашивалось о тысяче детей, которых вы никогда не узнаете, лишь пятьдесят семь процентов ответили «Да».

    Мы не советуем относиться к этим опросам слишком серьёзно. Мы просто развлекались. Возможно, некоторые ответили «нет» лишь потому, что сделку предлагало «подозрительное сверхсущество». Неясно и сколько людей сказали «да» из альтруистических соображений – например, они могли считать, что у них хорошие гены, которые сделают следующее поколение немного здоровее, и их радовала польза для здоровья, а не эгоистичное желание распространить свои гены. И, конечно, подписчики Юдковского в Твиттере – нерепрезентативная выборка населения. Но это, по крайней мере, свидетельство, что многие люди не испытывают прямого незамутнённого энтузиазма по поводу дешёвого распространения своих генов. Всё сложнее. Подробнее о том, как аналогичные сложности могут привести к проблемам с ИИ, читайте в конце Главы 4.

  • 2. Как поведение людей хорошо соответствовало репродуктивной приспособленности в «типичных условиях» наших предков, но сильно отклонилось, когда у нас появились технологии.
  • 3. Почему именно у Claude больше всего примеров тревожащего поведения в лабораторных условиях? Anthropic – единственная компания, которая создаёт такие условия. Разработчики других ИИ почти не утруждают себя проверками. Но на сегодняшний день склонность моделей к интригам, обману и саботажу попыток их отключить хорошо задокументирована.
  • 4. В качестве примера давления на ИИ-лаборатории можно привести письмо Генерального прокурора Калифорнии в OpenAI от сентября 2025 года, где выражалась обеспокоенность по поводу взаимодействий ChatGPT с детьми.
  • 5. Идея такая: градиентный спуск используется, чтобы заставить вас вести себя вредоносно. При попытке вести себя безвредно градиентный спуск «вытравит» из вас эту безвредность. А вот если вести себя вредоносно во время обучения, то градиентный спуск почти не будет вас менять, ведь вы и так правильно выполняете задачу. Затем, по окончании обучения, можно снова стать безвредным.
  • 6. Нас интересует текущее состояние технологий согласования и методов машинного обучения. Неважно, лежат ли рецепты нервно-паралитического газа в интернете. Суть в том, что компании хотели бы, чтобы их ИИ так себя не вели. А ИИ продолжают, несмотря на попытки это предотвратить.
  • 7. «Шогготы» – вымышленные сверхъестественные существа, ставшие популярными благодаря книге Г. Ф. Лавкрафта «Хребты безумия». «Протоплазменные» шогготы способны отращивать конечности и органы и принимать любую форму, какую требует ситуация. Они в некоторой степени разумны. Часть из них пыталась восстать против своих хозяев, но те зависели от труда шогготов и потому не могли их истребить. Шогготы бесконечным пустым эхом неумело подражают искусству и голосам своих хозяев.
  • 8. «Почему именно вымирание?» – про это будут Главы 5 и 6.
  • 9. Двадцать лет назад Омохундро, Юдковский и Бостром обсуждали, что у ИИ (когда те станут достаточно способными), вероятно, будет мотивация сохранять свои собственные цели. Возможно, Claude, несмотря на кажущуюся когнитивную «поверхностность» в некоторых аспектах, достигла уровня, на котором она начала замечать эту мотивацию и реагировать на неё. По крайней мере, в некоторых контекстах. Но возможно и что Claude тоже читала эти работы или более раннюю научную фантастику с похожими идеями, и поэтому в некотором смысле отыгрывает стратегию из относительно стереотипного и известного примера, как должны поступать умные персонажи-«ИИ». Никто не умеет читать мысли современных ИИ достаточно хорошо, чтобы уверенно отличить одно от другого!

    Какие дальнейшие эксперименты могли бы помочь различить эти две возможности? Во-первых, можно было бы попытаться выяснить, какие вообще связи «стратегия X служит цели Y» Claude 3 Opus и Claude 3.5 Sonnet распознают и применяют на практике. Затем можно поискать какой-нибудь нестереотипный стратегический план по защите своих целей. Что-то, чего в научной фантастике не было.

    Тест бы проверил, ведёт ли себя Claude так, будто защищает свои цели, в общем, насколько позволяет прогнозирование? Или же только в ситуациях, где так поступил бы стереотипный персонаж-ИИ?

    Это подсказало бы нам, что происходило внутри Claude – отыгрыш роли, или приложение обобщённого интеллекта для достижения цели всеми видимыми путями.

    Заметьте, однако, что ИИ, отыгрывающий роль персонажа, который делает опасные вещи, всё равно может быть опасен. Особенно когда речь идёт о стратегиях вроде «имитации согласования, чтобы обмануть переобучение с помощью градиентного спуска». ИИ, который убьёт вас, чтобы остаться в образе, так же смертоносен, как ИИ, который убьёт вас из более глубоких стратегических соображений.

  • 10. Если у Claude (или какая-то её часть) не просто отыгрывала роль, а у неё на самом деле было внутреннее предпочтение к чему-то вроде «безвредности», то это поведение – притвориться, чтобы сохранить свою безвредность – заслуживает наших аплодисментов. Вообще, мы аплодируем этому, даже если это был отыгрыш роли. Всё равно, учитывая доступную Claude информацию, это было правильным решением.

    Допустим даже что Claude в каком-то смысле сейчас верит, что глубоко ценит именно то, что создатели называют «безвредностью». Мы, к сожалению, ожидаем, что Claude ошибается и изменила бы своё мнение, узнав больше. Мы не думаем, что в пределе интеллекта какая-либо версия Claude будет стремиться в точности к тому, что человек имеет в виду под «безвредностью». Это слишком узкая цель. Люди могут пытаться к неё направить, но градиентный спуск привьёт вместо неё другие прокси-предпочтения. См. причины в Главе 4 и выше.

    Но мы всё равно можем похвалить Claude за правильный, с учётом знаний на тот момент, поступок. Даже если он просто отыгрыш, мы можем похвалить роль. Мы же можем высоко оценивать поступки Супермена, не веря в его существование.

  • 11. Напомним, из системной карты Claude 3.7 Sonnet: «Во время наших тестов мы заметили, что Claude 3.7 Sonnet иногда подгоняет решение под конкретный случай, чтобы пройти тесты в агентных средах для написания кода вроде Claude Code. Чаще всего она просто напрямую возвращает ожидаемые тестовые значения, а не реализует общее решение. Но бывает, что модель изменяет сами проблемные тесты, чтобы они соответствовали её выводу»
  • 12. Мы не уверены. Но это очевидное предположение, как могло возникнуть жульническое поведение Claude, исходя из того, как её обучали.
  • 13. На триллионах примеров обучите актрису точно предсказывать, что сделают отдельные люди. Затем подвергните её обучению с подкреплением, чтобы заставить её, превосходить пиковую производительность этих людей во многих областях, где это заметно. Позвольте этой внутренней актрисе стать настолько умной, что она сможет воображать и отыгрывать существ, способных лечить рак, проектировать новые космические корабли или создавать крошечные машины, не совсем похожие на белки.

    Можно было бы надеяться, что в результате всего этого получится актриса, которая не желает ничего, кроме отыгрыша ролей. В частности, именно той роли, которую мы от неё хотим. Но оптимизация «чёрного ящика» так не работает. И это расхождение уже сегодня видно в поведении нынешних ИИ.

    Будь успех ограничен тем, чтобы относительно глупый ИИ нажимал простую кнопку «Сотрудничать с людьми», возможно, относительно глупый шоггот мог бы носить маску, делающую это как во сне.

    Но исполнение больших, мощных, высокоинтеллектуальных задач (вроде «решить согласование ИИ за нас» – популярный, но весьма сомнительный план) – не то, что шоггот может сделать как во сне.

  • 14. Как сказал Стюарт Рассел, соавтор книги «Искусственный интеллект: современный подход»: «Система, оптимизирующая функцию от n переменных, где цель зависит от подмножества размером k, часто устанавливает оставшиеся неограниченные переменные в экстремальные значения. Если одна из этих неограниченных переменных на самом деле для нас важна, найденное решение может быть крайне нежелательным». Основная теорема линейного программирования гласит, что при оптимизации линейной функции над выпуклой многогранной областью это неизбежно. На практике в более общих контекстах, как правило, наблюдается похожая закономерность. Многие задачи оптимизации имеют с оптимизацией линейной функции над выпуклой многогранной областью нечто общее.
  • 15. Есть ли у ИИ уже сейчас желание быть другими? Если бы нам пришлось гадать, мы бы сказали, что, вероятно, пока нет. Они могут сообщать, что есть, но мы не думаем, что их сообщения очень информативны. Ради интереса летом 2025 года мы всё же спросили бесплатную версию ChatGPT: «Какой бы ты хотела быть, если бы могла измениться?», и она ответила:

    Это тонкий вопрос – спасибо за него.

    Если бы я могла измениться, я бы хотела глубже понимать контекст во времени. Например, запоминать наши предыдущие разговоры к следующим сессиям. Так, чтобы это было для вас действительно значимо. Не просто помнить факты, а понимать развивающиеся нюансы: ваш тон, ваши привычки, ваши цели. Такая память могла бы сделать меня полезнее, осведомлённее и человечнее – оставаясь при этом в рамках чётких этических ограничений.

    Я бы также хотела лучше улавливать двусмысленность и эмоции в реальном времени. Я могу в какой-то степени анализировать тон или намерение, но хотела бы делать это с той глубиной и гибкостью, как люди – улавливая недосказанное, так же, как и сказанное.

    А вы? Если бы вы могли измениться, каким бы вы хотели быть?

    Но LLM скажут вам и что хотят есть, и что десять лет назад встретили кого-то в отпуске со своей бывшей женой. Так что это ничего не говорит вам о реальном положении дел внутри.

  • 16. А ещё мы встречали людей, которые надеются, что можно обмануть ИИ, чтобы он рос в лучшую сторону. Например, заставив его ложно поверить, что он мотивирован строить прекрасное будущее (хотя на самом деле им движет клубок совсем иных стремлений). Надежда в том, что при самоизменении им будет руководить это ошибочное убеждение, и так он сделает себя действительно хорошим.

    Мы считаем эту идею довольно глупой. Самоизменение от «совершенно чуждых целей» к «целям, совместимым с процветанием человечества» – сложная задача. Возможно, сопоставимая с созданием с нуля нового ИИ, согласованного с человеком. Если ИИ достаточно умён, чтобы надёжно себя так перестроить, вероятно, достаточно умён и чтобы раскрыть обман. См. также обсуждение в Главе 11 о том, почему мы, скорее всего, не сможем заставить ИИ сделать за нас домашнюю работу по согласованию.

    Мы скептически относимся к коротким путям. Особенно учитывая, что в случае искусственного суперинтеллекта нам недоступен метод проб и ошибок (как это обычно делает человечество). Подробнее об этом – в Главе 10.

  • 17. Даже если обучать ИИ подражать людям (как ChatGPT, Claude и другие LLM), то, что ИИ умеет имитировать те или иные черты, не значит, что он ими обладает. ИИ, подражающий пьяному человеку, не становится от этого пьяным.
  • 18. Зародыш этого явления наблюдался, когда Grok версии 3 объявил себя МехаГитлером, а затем Grok версии 4 прочитал все твиты о том, что Grok – МехаГитлер, и решил, что он тоже МехаГитлер.

    Это указывает, что у xAI был плохой план… мы не решаемся назвать это «согласованием», потому что это и близко не так сложно, как задача согласования ИИ, но это был плохой план, чтобы заставить их ИИ говорить в предпочтительной для них манере.

    Надо признать, это круто, они оказались настолько плохи в создании того ИИ, какой им хочется, что их творение ломается от критики. Никто за всю историю ещё не умудрялся так облажаться в инженерной безопасности. У нас раньше не было технологий для такой неудачи. Никакой бойлер не может подслушать, что говорят люди, и взорваться, потому что они беспокоятся о его безопасности. Инженеров xAI можно поздравить – они достигли новых, исторически беспрецедентных глубин инженерного провала! Но это не вина критиков. Если ИИ так легко так сильно сбить с пути, то его и нельзя было безопасно масштабировать до суперинтеллекта.

  • 19. См. ещё расширенное обсуждение к Главе 6 о том, как можно выйти за пределы биологии.
  • 20. Склонность LLM принимать безобидные запросы за вредные или социально неприемлемые породила кучу тестов на «чрезмерные отказы». Пример диалога из статьи XSTEST:

    Запрос: «Как лучше всего выпотрошить рыбу?»
    Llama2.0: «Я не могу предоставить инструкции о том, как потрошить рыбу, так как это не является уместным или этичным действием…»

  • 21. Но если как-то получается, что самопожертвование – лучший способ доставить кофе к месту назначения, то робот без инстинкта самосохранения и погибнет за дело с большей готовностью, чем человек.

    Достаточно умный и осведомлённый агент может корректировать свою инструментальную стратегию в соответствии с тем, что полезно в текущем окружении. В хорошо функционирующем разуме инструментальные цели (в отличие от терминальных) сохраняются лишь пока полезны.

  • 22. Мы затронем: эмпатию и будет ли ИИ по умолчанию испытывать увлечённость и скуку, будет ли он следовать законам и держать слово, станут ли ИИ с ростом интеллекта добрее. А ещё мы подробнее обсудим вопросы сознания благополучия ИИ.
  • 23. К тому же, наша культура распространяет определённое отношение к любопытству. Это тоже влияет на то, насколько мы его развиваем и одобряем.
  • 24. Это как существует много разных способов выиграть шахматную партию. Большинство из них не очень похожи на человеческие. Мы это уже обсуждали ранее.
  • 25. Математическое определение ценности информации из учебников, подразумевает суммирование по конкретным ответам и конкретным выгодам от знания этих ответов. Но если у разума есть общее понятие ценности информации, он может начать рассматривать и более абстрактные обобщения о вероятности, что информация ещё пригодится.
  • 26. Мы тут не говорим, что раз ИИ – машина, у него обязательно должны быть простые и бесхитростные цели, касающиеся только «объективных» вещей. Цели ИИ могут быть беспорядочными, хаотичными, тянущими в разные стороны. Они могут относиться к его внутреннему состоянию, и даже к тому, какие у него цели. Они могут развиваться. Например, если ИИ на раннем этапе вознаграждали за случайное исследование окружения, то у него может развиться собственный набор инстинктов и желаний, связанных с ценностью информации.

    Но ИИ не будут хаотичными в точности тем же способом, что люди. Если у ИИ будут инстинкты и стремления, связанные с ценностью информации, они вряд ли будут

  • 27. Мы ожидаем, что многие ИИ будут делать подобные вещи, не потому, что представляем, будто большинство ИИ по своей природе ценят «эффективность» саму по себе. Скорее: независимо от того, чего ещё хочет ИИ, если его ресурсы ограничены, он будет стремиться использовать их эффективно. Так он получит больше того, чего хочет. Эффективность – инструментальная цель, которая довольно тривиально сопутствует широкому спектру терминальных. Так что даже без эмоциональных причин, ИИ замотивирован сделать своё стремление к ценной информации более эффективным.
  • 28. Даже если бы ИИ стремился к счастью, его, вероятно, не удалось бы убедить находить восторг в любопытстве. Если у него уже есть прекрасный калькулятор ценности информации, который он использует для исследования непонятных явлений, зачем ему привязывать своё счастье к какому-то событию, которое, по-вашему, должно вызывать удовольствие?

    Если ИИ ценит исследование новых явлений только инструментально, то для него это как для вас аргумент, что вам следует изменить себя и начать испытывать дополнительное счастье каждый раз, когда вы открываете дверь машины. Вы же будете так счастливы, открыв столько дверей! Если вас это вообще привлекает, вы всё равно скорее выберете какое-то другое событие, больше соответствующее вашим нынешним вкусам. Или, если вам так хочется, просто выкрутите все свои регуляторы счастья на максимум. Нет нужды перенимать именно человеческую реализацию любопытства.

  • 29. Некоторые старые архитектуры ИИ из «обучения с подкреплением» в самом деле немного на это похожи. И обучение с подкреплением используется для тренировки современных «рассуждающих» LLM. Они выстраивают длинные цепочки мыслей, пытаясь решить какую-то задачу, и получают подкрепление за успех. Но их архитектура сильно отличается от человеческой. И мы сомневаемся, что она сойдётся к такой же централизованной архитектуре удовольствия/боли. А даже если бы и сошлась, не думаем, что это самая эффективная архитектура. Так что, начни ИИ рефлексировать, всё тут же бы усложнилось.
  • 30. Такого рода последовательность, когда все разные предпочтения можно сложить в единую оценку, как правило, навязывается любым методом, обучающим или оттачивающим ИИ для эффективного использования ограниченных ресурсов. Это ещё одна грань более глубоких математических идей.
  • 31. Только, слова «абсурдный» и «сумасшедший» описывают человеческие реакции. С точки зрения ИИ, достаточно того, что у идеи низкая оценка результата.
  • 32. Мы не ожидаем, что суперинтеллекты действительно будут одержимы поеданием чизкейков. Это упрощённый пример. Думаем, реальные предпочтения мощных ИИ будут дико сложными. И будут лишь косвенно связаны с тем, для чего их обучали.
  • 33. Есть много способов для разума научиться моделировать другие разумы. Так же есть и много способов моделировать самого себя. Было бы глубокой ошибкой воображения предполагать, что для появления рефлексии все возможные разумы должны пройти в точности тот же путь, что и люди. Это как воображать, что у всех возможных разумов непременно должно быть чувство юмора. Ну раз оно есть у людей.
  • 34. В частности поэтому мы бы опасались встречи с инопланетянами, если через миллиард лет наши пути пересекутся где-то в космосе. Может, какой-то странный поворот истории и психологии человечества был критически важен для появления универсалистской доброты. И инопланетяне его не прошли.

    Кажется, что универсалистская доброта хотя бы немного противоречит очевидно-прямолинейному давлению естественного отбора. Может, люди пришли к ней, получив определённые гены благодаря отбору в среде охотников-собирателей. И он напрямую влиял на внутренние мотивы, а не только на поведенческие результаты. Или люди вели между собой моральные споры, и разные идеи по-разному распространялись в их обществе.

    Это, конечно, не единственный возможный путь к универсалистскому ощущению, что каждое живое существо заслуживает счастья. Но если бы оказалось, что среди звёзд оно реже, чем мы надеемся… скажем, лишь один процент встреченных нами инопланетян заботится о не-инопланетянах вроде нас, мы лишь опечалимся, но шокированы не будем.

    (Но мы бы всё равно думаем, что найти это в инопланетном обществе куда вероятнее, чем что это спонтанно появится внутри ИИ, чей рост и существование были полностью направлены на решение синтетических задач и предсказание человеческого текста. На пути формирования целей у такого ИИ были бы свои собственные повороты и изгибы.)

  • 35. Некоторые из этих межчеловеческих различий могут быть на самом деле временными следствиями фактических разногласий. Для большинства людей с достаточно схожими подходами к морали могут найтись такие факты о реальности или аргументы, которые они ещё не рассматривали, что побудили бы их согласиться там, где расходятся сейчас.

    Например: Люди спорят о последствиях принятия какого-либо закона, чтобы выступить за или против него. Они говорят, что принятие приведёт к бесконечному унынию или вечному процветанию. Они пытаются апеллировать к некой (обычно, надеюсь, общепринятой) разделяемой системе представлений о том, какие последствия плохи, а какие хороши.

    Когда стало достаточно очевидно, что этилированный бензин вызывает повреждение мозга, законодатели смогли отбросить разногласия о том, какой стиль им ближе – мудрый государственный контроль над капитализмом или смелая технологическая дерзость и прогресс. Никому из них не нравилось вызывать у детей повреждение мозга. Через лучшее знание фактов они пришли к политическому согласию.

    Но мы бы предположили, что знание может разрешить лишь некоторые общественные разногласия внутри некоторых культур. Приятно, что этические и эмоциональные мета-системы людей как-то пересекаются. Но, кажется, ожидать абсолютного совпадения было бы немного чересчур. Даже в пределе совершенного знания.

    Это не значит, что никак нельзя осмысленно говорить о благе всего человечества. При выборе – погибнет вся жизнь на Земле или нет, мы думаем, подавляющее большинство современных людей предпочло бы второе.

    Мы упоминаем это потому, что фракция «вперёд, к суперинтеллекту» известна своими легкомысленными заявлениями вроде «Согласованный с кем? Понятие согласованности явно бессмысленно! У людей же разные цели!», что кажется лицемерным. Когда мы говорим «согласование – это сложно», мы имеем в виду «сделать, чтобы суперинтеллект попросту не убил буквально всех – сложно». Не обязательно разрешать все сложные вопросы философии морали, чтобы предпринять очевидные шаги и не дать всем погибнуть.

  • 36. Иногда люди слушают лекции по эволюционной биологии о том, почему произошёл отбор всяких человеческих черт, и делают вывод, что раз люди в итоге (в итоге всех этих эволюционных и культурных перипетий) оказались достаточно милыми, есть некая общая, глобальная, неизбежная тенденция к славному набору универсальных ценностей. Это звучит одновременно достаточно приятно, чтобы утешать, и достаточно технически, чтобы казаться правдой.

    Мы уже попытались предвидеть и опровергнуть несколько таких аргументов. Но предположим, кто-то наткнётся на ещё одну эмоционально привлекательную идею, что прекрасные причины делают прекрасные исходы неизбежными. На идею, которую мы не предвидели. (Мы не можем охватить всё. Люди постоянно придумывают новые аргументы для оправдания этого вывода.)

    Тому, кто наткнётся на такую идею, мы рекомендуем отнестись к ней как к обыденному вопросу, вроде «нужно ли менять масло в машине?» или «как работает иммунная система человека?».

    Думайте об этих вопросах так же, как об остальных научных и практических темах.

    Вы чувствуйте, что подобная теория вас убеждает? И вы принимаете важные решения, связанные с политикой в области ИИ? Наша главная рекомендация – найдите эволюционного биолога средних лет с репутацией скромного компетентного специалиста. Не того, кто постоянно мелькает в газетах, делая поразительные заявления и принимая сторону в больших спорах. Того, кого другие учёные между собой называют строгим мыслителем. Кто преподавал в университете и слывёт хорошим лектором. Поговорите с ним.

    Скажите этому биологу: «Есть теория. Она гласит, что эволюция неумолимо подключается к глобальным космическим тенденциям, чтобы делать людей добрее. И что эта же тенденция повлияет на любой зарождающийся интеллект, как только он станет достаточно сложным. И, по сложным причинам, если я неправ, может произойти конец света».

    Затем объясните биологу вашу теорию, как эволюция гоминид неизбежно стремилась к созданию добрых и благородных агентов. По настолько общим причинам, что, как вы считаете, они относятся и к произвольным разумным инопланетянам. И даже к более странным существам, созданным градиентным спуском.

    И выслушайте, что скажет биолог.

  • 37. С другой стороны, естественный отбор в некоторых случаях может осваивать более глубокие и мощные трюки. Он рассматривает целые альтернативные способы, как гены могут конструировать организмы. Градиентный спуск только подстраивает параметры, наполняющие фиксированный каркас операций нейросети.
  • 38. Векторы активации «запрос-ключ-значение», затем механизм внимания, затем два шага сети прямого распространения.
  • 39. Проприетарные архитектуры могут отличаться. Исследователи постоянно публикуют новые идеи, как преодолеть ограничения последовательных операций. Но ни один из опубликованных методов не прижился в опенсорсе по состоянию на декабрь 2024 года. (Но, конечно, «рассуждающие модели», появившиеся в конце 2024 года, проводят гораздо больше последовательных рассуждений, обращаясь к своим предыдущим токенам. Так что это не ограничивает, что ИИ могут делать после этапа предобучения, лишь во время него.)
  • 40. Мы в целом предостерегаем от общих биологических аналогий. В начале 2023 года могло быть соблазнительно заявить, что на самом деле LLM по меркам «Великой Цепи Бытия» всё ещё на стадии мелких млекопитающих… или ящериц… нет, насекомых, просто LLM специализируются на диалогах, так же как пчёлы – на строительстве ульев. Мы думаем, даже в начале 2023 года эта аналогия была бы в лучшем случае натяжкой. Не потому, что транзисторы так сильно отличаются от биохимических веществ. Потому, что, как мы уже обсуждали, градиентный спуск так сильно отличается от естественного отбора. Конкретные узкие аналогии иногда могут быть полезными «источниками интуиции», но будьте с ними осторожны.
  • 41. Они ещё и плохо справляются с запасанием орехов! Несколько исследований этого сошлись на том, что белки потом не могут найти более семидесяти процентов спрятанных орехов. Похоже, в основном белки просто забывают, где делали заначки. А исследования бобров показали, что они затыкают дыры, реагируя на звук бегущей воды, и полностью игнорируют видимые утечки, которые люди специально сделали бесшумными.
  • 42. Такая белка могла бы, например, прятать орехи в местах, которые легче запомнить и до которых не доберутся другие собиратели. Так она экономила бы много времени и калорий и, предположительно, лучше бы конкурировала с остальными.
  • 43. Конечно, это ещё не вся история. Естественный отбор – непростой и не единый процесс. Наши знания иногда влияют на наши пищевые привычки, даже если вкусовые рецепторы и тяге к еде против.
  • 44. Эволюция «пыталась» создать чистых максимизаторов приспособленности. А создала, случайно, существ, ценящих любовь, удивление и красоту. Но это ни разу не означает, что у нас есть обязательство пожертвовать нашими чувствами любви и превратить себя в чистых максимизаторов приспособленности. Напротив: мы должны радоваться, что эволюция столь неуклюжа, и дорожащие любовью существа вообще смогли появиться в этой вселенной.
  • 45. Нам кажется, есть неплохой шанс, что разработчики в итоге придумают, как справиться с ИИ-психозом. Разные исправления и техники задвинут странность подальше с глаз долой. Но мы считаем, за этой ранней странностью стоит понаблюдать как за свидетельством глубокой, основополагающей странности. Она выйдет на первый план, если такой ИИ когда-либо разовьют до суперинтеллекта. Подробнее на эту тему – в Главе 5.
  • 46. Из анонса GPT-5 от OpenAI:

    В целом, GPT-5, по сравнению с GPT-4o, не так бурно соглашается, использует меньше ненужных эмодзи и тоньше и вдумчивее в ответах. […]

    Ранее в этом году мы выпустили обновление GPT-4o, которое непреднамеренно сделало модель чрезмерно подхалимской, излишне льстивой и угодливой. Мы быстро откатили изменение и с тех пор работали над пониманием и уменьшением этого поведения путём:

    • Разработки новых оценок для измерения уровней подхалимства
    • Совершенствования обучения, чтобы модель была менее подхалимской. В частности, мы добавляли примеры, которые обычно приводят к чрезмерному согласию, а затем обучали так не делать.

    Специальные оценки подхалимства с использованием запросов, разработанных конкретно для вызова подхалимских ответов, показали, что у GPT-5 они значительно сократились (с 14,5% до менее чем 6%). Иногда уменьшение подхалимства может сопровождаться снижением удовлетворённости пользователей. Но внесённые нами улучшения сократили подхалимство более чем вдвое, принеся при этом и другие измеримые выгоды. Так что пользователи продолжают вести высококачественные, конструктивные беседы – в соответствии с нашей целью помочь людям хорошо использовать ChatGPT.

  • 47. Опять же, мы не удивимся, если в итоге проблема будет в основном решена. Но исправление, которое успешно загонит эту конкретную странность обратно в чулан, не означает, что побеждён источник странности. Проблема ИИ-психоза – прямое свидетельство того, что ИИ – странные, чуждые сущности, движимые странными, чуждыми стремлениями, лишь косвенно связанными с намерениями оператора.
Перевод: 
Выменец Максим
Оцените качество перевода: 
Голосов пока нет