Дополнительные материалы к "Если кто-то его создаст, все умрут"

В этом разделе будут публиковаться дополнительные материалы к книге Элиезера Юдковского и Нейта Соареса «Если кто-то его создаст, все умрут» («If Anyone Builds It, Everyone Dies»).

Автор:

Элиезер Юдковский, Нейт Соарес

If Anyone Builds It, Everyone Dies: Additional Resources

Вступление

Элиезер Юдковский, Нейт Соарес

1.Часто задаваемые вопросы
2.Расширенное обсуждение
- 2.1.Эксперты по ИИ о катастрофических сценариях
- 2.2.Когда Лео Силард увидел будущее

Введение: Что сложно, а что просто

Это первое онлайн-дополнение к книге Юдковского и Соареса «Если кто-то его сделает, все умрут». Оно содержит часто задаваемые вопросы по каждой главе. Ещё тут есть углублённые разборы не ключевых для книги деталей и исторической информации.

Тут много материала. Не следует читать всё это от начала до конца. Мы написали книгу так, чтобы она была самодостаточной и описывала всю основную мысль. Но если у вас есть конкретный вопрос, контраргумент или любопытство, и книга не смогла отдать ему должное, очень вероятно, вам это поможет. Если мы упускаем что-то важное, запросите это здесь[TODO].

Часто задаваемые вопросы

Зачем писать книгу об угрозе вымирания от сверхчеловеческого ИИ?

Потому что ситуация действительно кажется серьезной и неотложной.

Если присмотреться к какой-то области, иногда можно увидеть приближение поворота истории.

В 1933 году физик Лео Силард первый понял, что цепные ядерные реакции возможны1. Так он смог предсказать один из поворотов раньше остальных.

По нашему мнению, уже сейчас видно – ИИ ведёт нас к следующему повороту. И мы думаем, что если человечество не изменит курс, всё закончится плохо.

ИИ-лаборатории соревнуются, чтобы создать машины умнее любого человека раньше остальных. И у них очень значительный прогресс. Как мы обсудим в следующих главах, современные ИИ скорее выращиваются, чем конструируются. Они ведут себя так, как никто не просил и не хотел. И они приближаются к тому, чтобы стать способнее любого человека. Нам это кажется крайне опасная ситуацией.

Ведущие ученые области вместе подписали открытое письмо. В нем они предупреждают общественность, что угрозу ИИ следует рассматривать как «глобальный приоритет наряду с другими всеобщими рисками, такими как пандемии и ядерная война». Это не редкое беспокойство — его разделяет почти половина специалистов (см. ниже «Эксперты по ИИ о катастрофических сценариях»). Мы надеемся, что даже если вы изначально настроены скептически, такие заявления о беспокойстве со стороны экспертов и высокие ставки, если эти опасения окажутся правильными, ясно показывают, что эта тема заслуживает серьезного обсуждения.

Тут лучше взвешивать аргументы, а не слепо доверять интуиции. Если письма и предупреждения не ошибаются, мир в невероятно опасном положении. Остаток книги мы будем излагать аргументы и доказательства, стоящие за этими предупреждениями.

Мы не считаем ситуацию безнадежной. Мы написали эту книгу в попытке изменить траекторию, по которой, судя по всему, движется человечество. Мы думаем, что есть надежда решить эту проблему.

Первый шаг к решению проблемы — понять ее.

Вы думаете, что ChatGPT может нас всех убить?

Нет. Мы беспокоимся о будущих достижениях в области ИИ.

Вы читаете эту книгу сейчас в частности потому, что такие разработки, как ChatGPT, сделали ИИ заметной новостью. Мир начинает обсуждать прогресс ИИ и то, как он влияет на общество. Это даёт нам поговорить об ИИ умнее человека и о том, что нынешняя ситуация выглядит неблагоприятно.

Мы, авторы, давно работаем в этой области. Прогресс ИИ за последние годы повлиял на наши взгляды, но наши опасения зародились ещё до ChatGPT и других больших языковых моделей. Мы уже десятилетиями (Соарес с 2013 года, Юдковский с 2001) занимаемся техническими исследованиями и пытаемся обеспечить, чтобы создание ИИ умнее человека закончилось хорошо. Недавно мы заметили признаки того, что мир может быть готов к этому разговору. И вполне правдоподобно, что он необходим сейчас, а иначе мир может упустить окно возможности отреагировать.

Область ИИ развивается. В какой-то момент (мы не знаем, когда) она дойдёт до создания ИИ умнее нас. Это открытая цель всех ведущих ИИ-компаний:

Сейчас мы уверены, что знаем, как создать CИИ [сильный искусственный интеллект] в традиционном понимании […] Мы начинаем направлять наши усилия дальше, к суперинтеллекту в истинном смысле слова. Нам нравятся наши нынешние продукты, но мы тут собрались во имя славного будущего. С суперинтеллектом всё остальное возможно.

— Сэм Альтман, генеральный директор OpenAI

Я думаю, что [мощный ИИ] может появиться уже в 2026 году. […] Под мощным ИИ я имею в виду ИИ-модель […] с такими свойствами: По чистому интеллекту она умнее лауреата Нобелевской премии в большинстве важных областей — биологии, программировании, математике, инженерии, писательстве, и так далее. Это значит, что она может доказывать новые математические теоремы, писать очень хорошие романы, с нуля программировать сложные кодовые базы, и так далее.

— Дарио Амодей, генеральный директор Anthropic

В целом мы сосредоточены на создании полноценного общего интеллекта. Все возможности, которые я сегодня обсуждал – следствия эффективного выполнения задачи создания общего интеллекта.

— Марк Цукерберг, генеральный директор Meta (незадолго до того, как компания объявила о проекте «суперинтеллекта» на 14,3 миллиарда долларов)

Я думаю, что в следующие пять-десять лет есть, может быть, 50-процентный шанс на то, что мы бы определили как СИИ.

— Демис Хассабис, генеральный директор Google DeepMind

Уэс: Итак, Демис, вы пытаетесь вызвать взрыв интеллекта?
Демис: Нет, ну, не неконтролируемый…

— Уэс Рот (интервьюер) и Хассабис

Их дела и деньги не расходятся со словами. Microsoft, Amazon и Google объявили о планах потратить на ИИ-дата-центры от 75 до 100 миллиардов долларов за 2025 год. xAI, выкупивший X (бывший Twitter), оценивается на 80 миллиардов долларов – примерно в два раза выше, чем сам X. Вскоре после покупки они собрали 10 миллиардов долларов на огромный дата-центр и развитие своего ИИ – Grok. OpenAI в партнёрстве с Microsoft и другими объявили о ]проекте Stargate, стоимостью в 500 миллиардов долларов.

Генеральный директор Meta Марк Цукерберг заявил, что Meta планирует потратить 65 миллиардов долларов на ИИ-инфраструктуру в этом году и «сотни миллиардов» на ИИ-проекты в ближайшие годы. Meta уже инвестировала 14,3 миллиарда долларов в ScaleAI и наняла его генерального директора для управления свежесозданными Meta Superintelligence Labs. Ещё они переманили более дюжины ведущих исследователей из конкурирующих лабораторий2 предложениями до 200 миллионов долларов в год каждому.

Это всё не означает, что до ИИ умнее человека уже совсем близко, но показывает, что все крупные компании изо всех сил стараются его создать. И такие ИИ, как ChatGPT – результаты этой исследовательской программы. Эти компании не собираются ограничиваться чат-ботами. Их цель – создать суперинтеллект, а чат-боты — лишь промежуточный пункт.

После десятилетий попыток лучше понять эту задачу и серьёзно подумать о будущем развитии, наше мнение таково: нет принципиального барьера для того, чтобы исследователи хоть завтра добились прорыва и успешно создали ИИ умнее человека.

Мы не знаем, будет ли этот порог действительно преодолён скоро или через десятилетие. История показывает – предсказать время появления новой технологии гораздо сложнее, чем что она вообще будет разработана. Но мы считаем, что аргументы в пользу опасности с лихвой оправдывают агрессивную международную реакцию уже сегодня. Эти аргументы, конечно, есть в книге.

Но люди же постоянно паникуют и слишком остро реагируют на происходящее?

Да. Но это не значит, что опасности нет.

Порой люди остро реагируют на проблемы. Некоторые просто фаталисты. Иногда паника беспочвенна. Всё это не означает, что мы живём в абсолютно безопасном мире.

Германия в 1935 году была неподходящим местом для евреев, цыган и других групп людей. Некоторые разглядели это вовремя и уехали. Другие решили, что это какое-то паникёрство, и погибли.

Угроза ядерного уничтожения была реальной, но человечество справилось с вызовом, и холодная война не перешла в горячую.

Хлорфторуглероды действительно прожигали дыру в озоновом слое, пока их успешно не запретили международным договором. Потом озоновый слой восстановился.

Иногда люди предупреждают о выдуманных опасностях. А иногда – о реальных.

Человечество не всегда слишком остро реагирует на вызовы. Не всегда и недооценивает их. Порой люди умудряются делать и то, и другое одновременно — например, когда страны готовили для следующей войны огромные линкоры, хотя должны были строить авианосцы. Простого решения вроде «игнорируй все предполагаемые технологические риски» или «считай все технологические риски реальными» не существует. Чтобы понять, что же правда, нужно изучить каждый случай подробно.

(Подробнее на эту тему читайте во введении к книге.)

Когда будут разработаны эти тревожащие ИИ?

Знание о том, что технология грядёт, не говорит, когда именно она появится.

Многое, что люди просят нас предсказать, мы на самом деле знать не можем. Когда Лео Силард в 1939 году написал послание с предупреждением США о ядерном оружии, он не мог включить и не включил туда никакого утверждения вроде «Первая ядерная бомба будет готова к испытательному взрыву через шесть лет».

Это была бы очень ценная информация! Но даже когда ты, как Силард, первым правильно предсказываешь ядерные цепные реакции, даже когда ты самый первый видишь, что технология возможна и значима – ты не можешь точно предсказать, когда эта технология появится.

Есть простые прогнозы и сложные. Мы не претендуем на то, что можем делать сложные – например, точно предсказать, когда появятся опасные ИИ.

Экспертов постоянно удивляет, как быстро ИИ развивается.

Незнание того, когда ИИ появится, не равно знанию, что времени ещё много.

В 2021 году прогностическое сообщество на сайте Metaculus оценивало, что первый «по-настоящему сильный ИИ» появится в 2049 году. Через год, в 2022, этот коллективный прогноз сдвинулся на двенадцать лет назад — к 2037. Ещё через год, в 2023, он сдвинулся ещё на четыре года назад — к 2033. Снова и снова быстрые темпы развития ИИ удивляли прогнозистов. Предсказания кардинально менялись из года в год.

Это явление не ограничивается Metaculus. Организация 80,000 Hours задокументировала много случаев, как у экспертов-прогнозистов быстро сокращались оценки времени. Даже суперпрогнозисты, которые постоянно выигрывают турниры по прогнозированию и часто превосходят в способности к предсказанию будущего специалистов по релевантной области, давали лишь 2,3% вероятности того, что ИИ получит золотую медаль Международной математической олимпиады к концу 2025 года. ИИ получил золотую медаль Международной математической олимпиады в июле 2025 года.

Интуитивно может казаться, что до ИИ умнее человека ещё десятилетия. Но ведь в 2021 году казалось, что до ИИ уровня ChatGPT ещё десятилетия, а потом он внезапно появился. Кто знает, когда так же внезапно появятся новые принципиальные улучшения ИИ? Возможно, ещё через десять лет. Или завтра. Мы не знаем, сколько времени это займёт, но некоторые исследователи всё больше тревожатся, что может и мало. Мы не претендуем на особые знания в этом вопросе, но считаем, что человечеству следует действовать поскорее. Неизвестно, как много ещё у нас будет предупреждений.

Подробное описание, как возможности ИИ могут лавинообразно нарастать почти без предупреждения см. в главе 1. А описание современных парадигм ИИ и того, «дойдут ли они до конца» см. в главе 2.

К заявлениям СМИ о том, что может и не может скоро произойти, лучше относиться скептически. (Возможно, это уже произошло!)

Через два года после того, как Уилбур Райт с унынием предсказал, что до механического полёта ещё тысяча лет, New York Times уверенно заявила, что миллион3. Через два месяца и восемь дней братья Райт полетели.

Скептики часто очень уверенно говорят, что ИИ никогда не сможет соперничать с людьми в чём-то конкретном, даже когда недавний прогресс машинного обучения показывает, что ИИ сравнялись (или превзошли) человеческие результаты по всё большему числу тестов-бенчмарков. Например, как минимум с конца 2024 года известно, что современные ИИ часто способны распознать сарказм и иронию из текста или даже невербальных сигналов. Это не помешало New York Times в мае 2025 года повторить заявление, что «у учёных нет твёрдых доказательств того, что сегодняшние технологии способны хотя бы на некоторые из простейших вещей, что делает мозг, например, распознавать иронию»4.

Общий вывод: многие будут утверждать, что знают – ИИ умнее человека вот-вот появится, или что до него ещё невообразимо далеко. Но неуютная реальность такова, что никто сейчас этого не знает.

Хуже того, велики шансы, что никто так и не узнает, пока для международного сообщества не станет слишком поздно что-либо предпринять.

Предсказать время следующего технологического прорыва ужасно трудно. Мы знаем, что ИИ умнее человека смертельно опасен. Но если нам нужно знать, в какой день недели он появится, то увы. Надо уметь действовать в условиях неопределённости, иначе мы не будем действовать вообще.

Можно ли по прошлому экстраполировать, когда мы создадим ИИ умнее человека?

Для этого у нас недостаточно понимания интеллекта.

Иногда успешные предсказания делаются так: берём на графике прямую линию, которая была стабильной много лет, и говорим, что она так и продолжится как минимум ещё год-два.

Не всегда так и будет. Тренды меняются. Но это часто работает неплохо. В таких случаях люди вполне делают успешные предсказания на практике.

Недостаток этого метода в том, что часто мы хотим знать не «насколько высоко поднимется эта линия на графике к 2027 году?», а скорее «Что случится качественно, если эта линия продолжит подниматься?». Какой её уровень соответствует каким важным реальным результатам?

А в случае с ИИ мы просто не знаем. Довольно легко найти какой-нибудь параметр искусственного интеллекта, образующий на графике прямую (например, «перплексию», и провести эту линию дальше. Но никто не знает, какая будущая «перплексия» соответствует какой качественной способности играть в шахматы. Люди не могут предсказать это заранее – приходится запустить ИИ и выяснить так.

Никто не знает, где на этом графике проходит линия «теперь он способен убить всех». Всё, что можно сделать, – запустить ИИ и выяснить. Поэтому экстраполяция прямой линии на графике нам не поможет. (Даже до того, как график потеряет актуальность из-за прогресса алгоритмов.)

Поэтому в книге мы не занимается экстраполяцией линий на графиках, чтобы точно предсказать, когда кто-то применит 10²⁷ операций с плавающей точкой для обучения ИИ, или к чему это приведёт. Такое предсказать сложно. Книга сосредоточена на том, что, как нам кажется, предсказать просто. Это довольно узкая область. То, что в ней мы можем совершить небольшое число важных предсказаний, не даёт нам права делать уверенные предположения про всё что угодно в будущем.

Чем мотивированы авторы? Нет ли у них конфликта интересов?

В среднем мы не ожидаем заработать на книге. И ещё – мы будем рады, если её тезис ошибочен.

Мы (Соарес и Юдковский) получаем зарплату в Институте исследований машинного интеллекта (MIRI). Он финансируется пожертвованиями людей, считающих эту тему важной. Возможно, книга привлечёт пожертвования.

Но у нас есть и другие возможности зарабатывать. Мы занимаемся написанием книг не ради денег. Наш аванс за эту книгу целиком пошёл на её рекламу, а все гонорары достанутся MIRI, чтобы возместить рабочее время и усилия сотрудников.5

И конечно, оба автора были бы в восторге, если бы пришли к выводу, что наша цивилизация в безопасности. Мы бы с удовольствием вышли на пенсию или стали зарабатывать как-то иначе.

Мы не думаем, что нам было бы трудно изменить мнение, если бы доказательства это оправдывали. Уже меняли. MIRI был основан (под названием «Институт сингулярности») как проект по созданию суперинтеллекта. Юдковскому понадобился год, чтобы понять – это не пройдёт хорошо само собой, и ещё пара лет, чтобы понять – довольно сложно заставить это пройти хорошо.

Мы уже меняли своё мнение, и были бы рады сделать это снова. Просто мы не считаем, что это оправдано свидетельствами.

Мы не думаем, что ситуация безнадёжна. Но мы действительно считаем проблему реальной, и что если мир не примется за неё всерьёз, ему грозит ужасная опасность.

Подчеркнём: для понимания, на пути ли ИИ к тому, чтобы убить нас всех, нужно думать про ИИ. Если думать только о людях, можно найти причины отвергнуть любой источник. Академики оторваны от жизни; корпорации пытаются раздуть ажиотаж; некоммерческие организации хотят собрать деньги; любители не знают, о чём говорят.

Но если пойти этим путём, то финальные убеждения будут определяться тем, кого вы решили отвергнуть. Вы не будете давать аргументам и свидетельствам шанса изменить ваше мнение, если оно неверно. Чтобы понять, где правда, не обойтись без оценки аргументов и их собственной осмысленности, независимо от того, кто их выдвинул.

Наша книга не начинается с дешёвого аргумента, что корпоративные руководители лабораторий ИИ заинтересованы убедить население, что ИИ безопасны. Она начинается с обсуждения ИИ. Позже в книге мы немного касаемся случаев, когда учёные-люди были чрезмерно оптимистичны. Но мы никогда не говорим, что какие-то аргументы лучше игнорировать, потому что их авторы из ИИ-лаборатории. Мы обсуждаем некоторые реальные планы разработчиков и то, почему они по объективным причинам не сработали бы. Мы изо всех сил стараемся поговорить о реальных аргументах, потому что значимы именно они.

Если вы считаете нас неправыми, приглашаем вас показать, где конкретно. Мы считаем это более надёжным способом найти правду, чем переходить на личности и мотивации. Даже если самый предвзятый человек в мире говорит, что идёт дождь, это не значит, что солнечно.

Разве всё это про ИИ – не лишь научная фантастика?

Распространённость темы в художественной литературе не особо нам о чём-то говорит.

ИИ умнее человека ещё не создан, но его изображали в фантастике. Мы не рекомендуем опираться на эти представления. Настоящий ИИ, скорее всего, будет мало похож на фантастический – в главе 4 мы разберём, почему.

ИИ – не первая технология, которую предвосхитила фантастика. Летательные аппараты тяжелее воздуха и полёты на Луну описали до их появления. Общую идею ядерного оружия предугадал Г. Уэллс, один из первых фантастов, в романе 1914 года «Освобождённый мир». Он ошибся в деталях: у Уэллс была бомба, мощно горела много дней, а не мгновенно взрывалась, оставляя смертельное излучение. Но у него была общая идея бомбы на ядерной, а не химической энергии.

В 1939 году Альберт Эйнштейн и Лео Силард отправили письмо президенту Рузвельту с призывом опередить Германию в создании атомной бомбы. Можно представить мир, где Рузвельт впервые узнал об идее ядерных бомб из романа Уэллса и отверг её как научную фантастику.

В реальности Рузвельт отнёсся к идее серьёзно – по крайней мере, достаточно серьёзно, чтобы создать «Урановый комитет». Но это показывает, что опасно отвергать идеи лишь из-за того, что похожее когда-то описал фантаст.

Научная фантастика может ввести в заблуждение и если считать её правдой, и если считать её ложью. Авторы-фантасты – не пророки, но и не анти-пророки, чьи слова гарантированно неверны. Обычно лучше игнорировать фантастику и оценивать технологии и сценарии сами по себе.

Чтобы предсказать, что на самом деле произойдёт, не обойтись без честного обдумывания аргументов и взвешивания свидетельств в разные стороны.

У ИИ точно будут странные последствия.

Мы одобряем мысль, что ИИ странный, что он нарушит статус-кво и изменит мир. Наши интуитивные соображения в некоторой степени адаптированы к миру, где люди – единственный вид, способный на дела вроде строительства электростанции, где всю человеческую историю машины всегда были неразумными инструментами. Мы можем быть очень уверены как минимум в том, что будущее с ИИ умнее человека будет не таким.

Крупные и долгосрочные изменения мира случаются нечасто. Эвристика «ничего никогда не происходит»6 обычно работает прекрасно, но случаи, когда она терпит неудачу – на них-то и важнее всего обратить внимание. Весь смысл раздумий о будущем – предвосхитить что-то большое, до того, как оно всё же произойдёт, чтобы можно было подготовиться.

Как обсуждалось в введении, один из способов преодолеть уклон в стороны статуса-кво – вспомнить историю.

Иногда отдельные изобретения кардинально меняют мир. Взять хоть паровой двигатель и другие технологии, появлению которых он поспособствовал во время Промышленной революции. Они быстро преобразили человеческую жизнь:

Будет ли появление действительно сильного ИИ аналогично влиятельным событием? Кажется, что искусственный интеллект будет ну хотя бы так же важен, как Промышленная революция. Среди прочего:

ИИ, вероятнее всего, сильно ускорит технологический прогресс. Как мы обсудим в главе 1, машины способны работать намного быстрее человеческого мозга. Люди могут совершенствовать ИИ (а потом ИИ сможет улучшать себя сам), пока машины не опередят людей в совершении научных открытий, изобретении новых технологий и подобном.

Всю историю человечества механизмы нашего мозга принципиально не менялись, даже при создании всё более впечатляющих инженерных достижений. Стоит ожидать, что многое изменится очень быстро, когда сам механизм познания начнёт совершенствоваться и станет способен улучшать себя.
Кроме того, как мы обсудим в главе 3, достаточно способные ИИ, скорее всего, будут обладать собственными целями. Будь ИИ просто людьми, только побыстрее и поумнее, их появление уже было бы грандиозным событием. Но ИИ будут, по сути, совершенно новым видом разумной жизни на Земле. Видом со своими целями, которые, вероятно (как мы обсудим в главах 4 и 5), существенно отклонятся от человеческих.

Было бы удивительно, если бы эти два мощных прорыва могли не перевернуть существующий мировой порядок. Для веры в «нормальное» будущее, кажется, надо думать, что машинный интеллект вообще никогда не превзойдёт человеческий. Это и раньше не казалось возможным вариантом, а в 2025 году в это стало гораздо труднее верить, чем в 2015 или 2005.

Долгосрочные прогнозы и технологические изменения

Более далёкое будущее тоже будет странным.

Если заглянуть достаточно в будущее, оно обязательно будет странным. XXI век совершенно невероятен с точки зрения XIX века, а он казался бы удивительным из XVII. ИИ ускоряет этот процесс и вводит в него совершенно нового игрока.

Один аспект будущего кажется сегодня предсказуемым: развитые технологические виды не останутся навечно привязанными к своей планете. Сейчас ночное небо полно звёзд, прожигающих свою энергию. Ничто не мешает жизни научиться путешествовать к ним и использовать эту энергию в своих целях.

Есть физические ограничения скорости таких путешествий, но не похоже, чтобы были ограничения на их осуществление вообще7. Ничто не мешает нам в итоге разработать межзвёздные зонды, способные добывать из вселенной ресурсы и создавать из них новые процветающие цивилизации, а заодно ещё больше самовоспроизводящихся зондов для колонизации других областей космоса. Если нас заменят ИИ, ничто не помешает им делать то же самое, замените только «процветающие цивилизации» на их цели, какими бы они ни были.

Жизнь распространялась по мёртвым камням, пока не заселила всю Землю. Так же мы можем ожидать, что жизнь (или созданные ею машины) в конце концов заселит и необитаемые частям вселенной. Тогда найти безжизненную звёздную систему будет так же странно, как сегодня найти на Земле безжизненный остров, лишённый даже бактерий.

Сейчас большая часть материи во вселенной, включая звёзды, расположена случайно. Но в достаточно далёком будущем основная часть материи почти наверняка будет расположена по определённому замыслу – согласно предпочтениям тех, кто сможет собрать и переделать звёзды.

Даже если ничто с Земли никогда не распространится по космосу, и даже если большинство разумных форм жизни в далёких галактиках никогда не покинет родную планету, одного овладевшего космическими путешествиями разума где угодно во вселенной хватит, чтобы зажечь искру и начать распространение по космосу. Он будет путешествовать к новым звёздным системам и использовать местные ресурсы для создания новых зондов – точно так же, как потребовался лишь один самовоспроизводящийся микроорганизм (плюс немного экспоненциального роста), чтобы превратить безжизненную планету в мир, где каждый остров наполнен жизнью.

Так что будущее будет не похоже на день сегодняшний. Более того, мы можем ожидать кардинальные отличия. Любые биологические или искусственные виды в поисках ресурсов неизбежно преобразят сами звёзды – хоть мы и мало что можем сказать о том, как бы выглядел такой вид или на какие цели пошли бы ресурсы вселенной.

Предсказать детали кажется трудной, почти невозможной задачей. Это сложно. Но предсказать преобразование вселенной в место, где большая часть материи собрана и направлена на некую цель – какой бы она ни была? Это проще, хоть и может показаться контринтуитивным с точки зрения цивилизации, едва начавшей извлекать ресурсы из звёзд.

Не стоит ожидать, что будущее через миллион лет будет похоже на 2025 год со стаей безволосых обезьян, копошащихся по поверхности Земли. Задолго до этого либо мы уничтожим себя, либо наши потомки отправятся исследовать космос8.

Человечество точно ждут странные времена. Вопрос только – когда.

Будущее настигнет нас быстро.

Технологии вроде ИИ означают, что будущее может постучаться в нашу дверь уже скоро и очень сильно.

По меркам истории до Нового времени Промышленная революция преобразила мир очень быстро. По меркам эволюционных процессов человек разумный преобразил мир очень быстро. По меркам космологических и геологических процессов жизнь преобразила мир очень быстро. Новые изменения тоже могут оказаться очень быстрыми по старым меркам.

Похоже, человечество приближается к следующему радикальному преобразованию, когда машины смогут начать переделывать мир на своих скоростях, намного превышающих биологические. В главах 1 и 6 мы ещё поговорим о том, насколько хорошо машинный интеллект мог бы сравниться с человеческим. Но как минимум нам нужно серьёзно рассмотреть возможность, что разработка машин умнее человека кардинально и очень быстро изменит мир. Подобное уже случалось и не раз.

Расширенное обсуждение

Эксперты по ИИ о катастрофических сценариях

В опросе 2022 года среди 738 участников академических конференций по ИИ NeurIPS и ICML сорок восемь процентов посчитали, что есть как минимум десятипроцентная вероятность, что результат развития ИИ будет «крайне плохим (например, вымирание человечества)». Опасения, что ИИ может вызвать беспрецедентную катастрофу, широко распространены в этой области.

Ниже мы собрали комментарии известных учёных и инженеров в области ИИ о его катастрофических последствиях. Некоторые из этих учёных приводят свою «p(doom)» – вероятность, что ИИ вызовет вымирание человечества или столь же катастрофические последствия9.

Джеффри Хинтон (2024, лауреат Нобелевской премии и премии Тьюринга за то, что запустил революцию глубокого обучения в ИИ, сказал о своих личных оценках10:

Я на самом деле думаю, что риск [экзистенциальной угрозы] составляет более пятидесяти процентов.

Йошуа Бенджио (2023, лауреат премии Тьюринга (вместе с Хинтоном и Яном ЛеКуном) и самый цитируемый из живущих учёных:

Мы не знаем, сколько у нас времени, прежде чем это станет действительно опасным. Я уже несколько недель говорю: «Пожалуйста, приведите мне аргументы, убедите меня, что нам не стоит волноваться, я буду намного счастливее». Пока этого не случилось. […] У меня примерно двадцать процентов вероятности, что всё обернётся катастрофой.

Илья Суцкевер (2023, соавтор изобретения AlexNet, бывший главный научный сотрудник OpenAI и (вместе с Хинтоном и Бенджио) один из трёх наиболее цитируемых учёных в области ИИ:

Огромная мощь суперинтеллекта также может быть очень опасной и может привести к захвату власти у человечества или даже его вымиранию. Хотя суперинтеллект сейчас кажется далёким, мы считаем, что он может появиться в это десятилетие. […]
Сейчас нас нет решения, как управлять или контролировать потенциальный суперинтеллект, как предотвратить его выход из-под контроля. Наши нынешние методы согласования ИИ, такие как обучение с подкреплением на основе человеческой обратной связи, полагаются на способность людей контролировать ИИ. Но люди не смогут надёжно контролировать ИИ-системы намного умнее нас, поэтому наши нынешние методы согласования не масштабируются до суперинтеллекта. Нам нужны новые научные и технические прорывы.

Ян Лейке (2023, соруководитель научного направления по согласованию в Anthropic и бывший соруководитель команды суперсогласования в OpenAI:

[интервьюер: «Я не тратил много времени на точное определение моей личной p(doom). Думаю, больше десяти процентов и меньше девяноста процентов».]
[Лейк:] Наверное, я назвал бы тот же диапазон.

Пол Кристиано (2023, руководитель отдела безопасности Института безопасности ИИ США (на базе NIST) и изобретатель обучения с подкреплением на основе человеческой обратной связи (RLHF):

Вероятность, что большинство людей погибнет в течение 10 лет после создания мощного (достаточно мощного, чтобы сделать человеческий труд устаревшим) ИИ: 20% […]

Вероятность, что будущее человечества каким-то образом необратимо испортится в течение 10 лет после создания мощного ИИ: 46%

Стюарт Рассел (2025, заведующий инженерной кафедрой имени Смита-Заде в Калифорнийском университете в Беркли и соавтор ведущего учебника по ИИ для студентов «Искусственный интеллект: современный подход»:

«Гонка к СИИ» между компаниями и между нациями в некотором роде похожа [на гонку времён холодной войны по созданию всё более мощных ядерных бомб], только хуже. Даже генеральные директора компаний, участвующих в гонке, заявляли, что у победителя есть значительная вероятность вызвать вымирание человечества, потому что мы понятия не имеем, как контролировать системы умнее нас самих. Иными словами, гонка к СИИ – это гонка к краю пропасти.

Виктория Краковна (2023, научный сотрудник Google DeepMind и соучредитель Future of Life Institute:

[интервьюер: «Об этом не очень приятно думать, но какова, по вашему мнению, вероятность того, что Виктория Краковна умрёт от ИИ до 2100 года?»]
[Краковна:] Ну, 2100 год очень далеко, особенно учитывая, как быстро развивается технология прямо сейчас. Навскидку я бы сказала процентов двадцать или что-то в этом роде.

Шейн Легг (2011, соучредитель и главный учёный по СИИ в Google DeepMind:

[интервьюер: «Какую вероятность вы приписываете возможности плохих/очень плохих последствий в результате неправильно сделанного ИИ? […] Где «плохие» = вымирание человечества; «очень плохие» = люди страдают»]

[Легг:] В течение года после появления чего-то вроде ИИ человеческого уровня […] я не знаю. Может быть, пять процентов, может быть, пятьдесят процентов. Не думаю, что у кого-то есть хорошая оценка. Если под страданиями вы имеете в виду длительные страдания, то считаю это довольно маловероятным. Если бы сверхразумная машина (или любой другой сверхразумный агент) решила избавиться от нас, думаю, она сделала бы это довольно эффективно.

Эмад Мостак (2024, основатель Stability AI, компании, создавшей Stable Diffusion:

Моя p(doom) составляет 50%. Без указания периода времени вероятность, что системы способнее людей, вероятно, в итоге управляющие всей нашей критической инфраструктурой, нас всех уничтожат – как подбрасывание монетки. Особенно учитывая подход, которого мы сейчас придерживаемся.

Дэниел Кокотайло (2023, специалист по регуляции ИИ, информатор из OpenAI и исполнительный директор AI Futures Project:

Думаю, гибель от ИИ вероятна на 70%, и считаю, что те, кто думает, что меньше, скажем, 20%, очень неразумны.

Дэн Хендрикс (2023, исследователь машинного обучения и директор Center for AI Safety:

Моя p(doom) > 80%, но раньше она была ниже. Два года назад она была ~20%.

Все перечисленные исследователи подписали заявление о рисках ИИ, которым мы открыли книгу:

Снижение риска вымирания из-за ИИ должно быть глобальным приоритетом подобно другим всеобщим рискам, такими как пандемии или ядерная война.

Некоторые другие известные исследователи, подписавшие заявление: архитектор ChatGPT Джон Шульман; бывший директор исследований Google Питер Норвиг; главный научный сотрудник Microsoft Эрик Хорвиц; руководитель исследований AlphaGo Дэвид Сильвер; один из изобретателей AutoML Франк Хуттер; один из изобретателей обучения с подкреплением Эндрю Барто; изобретатель GAN Ян Гудфеллоу; бывший президент Baidu Я-Цинь Чжан; изобретатель криптографии с открытым ключом Мартин Хеллман; руководитель исследований Vision Transformer Алексей Досовицкий. Список продолжается другими подписантами: Дон Сон, Яша Соль-Дикштейн, Дэвид МакАллестер, Крис Ола, Бин Ким, Филип Торр и сотни других.

Когда Лео Силард увидел будущее

В сентябре 1933 года физик Лео Силард переходил дорогу на пересечении Саутгемптон-роу с Рассел-сквер, и ему пришла в голову идея цепной ядерной реакции – ключевая идея атомных бомб.

В этот момент началось целое приключение. Силард пытался понять, что делать с этой важной идеей. Он пошёл к более уважаемому физику Исидору Раби, а Раби обратился к ещё более уважаемому Энрико Ферми. и спросил у того, считает ли он цепные ядерные реакции реальной вещью, и Ферми прислал ответ:

Чушь!

Раби спросил у Ферми, что означает «Чушь!». Тот ответил, что это отдалённая возможность.

Раби спросил, что Ферми имеет в виду под «отдалённой возможностью». «Десять процентов».

На что Раби ответил: «Десять процентов – это не отдалённая возможность, если это означает, что мы можем так умереть».

И Ферми пересмотрел свою позицию.

Из этой истории можно извлечь несколько разных уроков. Урок, который мы не извлекаем: «Любая отдалённая возможность заслуживает беспокойства, если мы можем от неё умереть». В десяти процентах нет ничего «отдалённого», но о достаточно отдалённой возможности не стоило бы думать.

Урок, который мы извлекаем из этой истории: иногда можно понять, что технология вроде цепной ядерной реакции возможна, и поэтому знать (раньше всех остальных), что мир ждут кардинальные перемены.

Ещё один урок, который мы извлекаем из этой истории: первые интуитивные прикидки часто плохо помогают в предвидении и осмыслении кардинальных перемен. Даже если ты – известный эксперт в соответствующей области, как Энрико Ферми.

Подумайте: откуда вообще у Ферми взялись эти «отдалённая возможность» и «десять процентов»?

Почему Ферми считал, что нельзя заставить радиоактивность вызывать больше радиоактивности в цепной реакции? Неужели лишь потому, что большинство крупных идей не срабатывают?

Ответ «Чушь!», кажется, говорит что-то более сильное. Он отражает ощущение, что эта конкретная большая идея чрезвычайно неправдоподобна. Но почему? На основе какого физического аргумента?

Просто казалось безумным? Да, возможность ядерного оружия имела бы радикальные последствия для мира. Но реальность иногда допускает события с крупными последствиями.

Когда Ферми впервые услышал идею Силарда, он предложил Силарду опубликовать её и рассказать всему миру – включая Германию и её нового канцлера Адольфа Гитлера.

Ферми проиграл этот спор. И хорошо, что так случилось, ведь ядерное оружие в итоге оказалось возможным. Ферми в конце концов присоединился к крошечному заговору Силарда, хотя оставался скептиком почти что до момента, когда уже сам наблюдал за созданием первого ядерного реактора – Чикагской батареи-1.

Иногда технологии переворачивают мир. Если принимать как должное, что радикальные новые технологии – это «чушь», прогресс может застать врасплох. Даже если ты один из умнейших учёных в мире. Большая заслуга Ферми в том, что он сел и поспорил с Силардом. И ещё бОльшая заслуга, что он дал убедить себя изменить поведение до появления технологии, до возможности собственными глазами её увидеть. Когда ещё было не поздно что-то с этим сделать.

За всю историю человечества произошло много всего ужасного. Но что-то ужасное не произошло как раз потому, что кто-то сел и поговорил. В некоторых случаях – заставил поговорить, как сделал Силард с Ферми.

1. Мы рассказываем часть истории Лео Сциларда в расширенном обсуждении ниже.
2. Bloomberg, июль 2025 года: «Генеральный директор Meta Марк Цукерберг успешно нанял более десяти исследователей из OpenAI, а также ведущих исследователей и инженеров из Anthropic, Google и других стартапов».
3. Cтатья 1903 года «Летающие машины, которые не летают»:
«Машина делает лишь то, что должна делать в подчинении естественным законам, действующим на пассивную материю. Следовательно, если требуется, скажем, тысяча лет, чтобы приспособить для лёгкого полёта птицу, которая начала с зачаточными крыльями, или десять тысяч для той, что начала вовсе без крыльев и должна была их прорастить ab initio, можно предположить, что летающая машина, которая действительно полетит, может быть создана объединёнными и непрерывными усилиями математиков и механиков за период от одного миллиона до десяти миллионов лет — при условии, конечно, что мы сможем тем временем устранить такие мелкие недостатки и затруднения, как существующее соотношение между весом и прочностью в неорганических материалах. Без сомнения, эта проблема притягивает интересующихся, но обычному человеку кажется, что усилия можно было бы направить и на более выгодное дело.»
4. Да, ИИ могут даже распознать иронию того, что New York Times сообщает, будто они не могут распознать иронию. (Отдадим должное New York Times, некоторые из их журналистов освещают ИИ с несколько лучшим пониманием.)
5. Если книга окажется столь успешной, что окупит все эти инвестиции, в нашем контракте есть пункт, говорящий, что авторы в итоге получат от MIRI долю прибыли. Но уже после того как MIRI получат за свои усилия хорошую компенсацию. Но MIRI вкладывает в помощь с книгой столько сил, что, если она не превзойдёт наши ожидания кардинально, мы никогда не получим ни копейки.
6. Фраза «ничего никогда не происходит» распространена среди людей, участвующих в рынках предсказаний. Про неё писал, например, блогер Скотт Александер в эссе «Эвристики, которые почти всегда работают».
7. См., например, работу «Вечность за шесть часов», которая обсуждает пределы возможной межгалактической колонизации с учётом известных физических законов.
8. Или создадут для этого инструменты или преемников, каким бы способом им ни было удобно с преимуществами более развитой науки и технологий.
9. У нас есть опасения касательно практики называть «p(doom)». Назначение единственной вероятности (в противоположность отдельным вероятностям для разных реакций общества) кажется нам пораженчеством. Есть огромная разница между тем, чья p(doom) высока из-за мнения, что мир скорее всего не способен предотвратить катастрофу, и тем, у кого p(doom) высока из-за мнения, что мир может предотвратить катастрофу, но не будет.
Общество может решить, что p(doom) высок из-за беспомощности человечества, тогда как на самом деле она высока из-за бездействия. Тогда разговоры о p(doom) превратятся в самосбывающееся пророчество и направят нас к катастрофе, которой можно было и избежать.

Ещё у нас сложилось впечатление, что в Кремниевой долине люди обмениваются своими «p(doom)» как бейсбольными карточками, довольно оторвано от реальности. Если обратить на неё внимание, то даже вероятность всего лишь в пять процентов убить каждого человека на планете должна быть очевидным поводом для крайней тревоги. Это куда выше уровня, достаточного, чтобы оправдать немедленное закрытие всей области ИИ. Люди, кажется, удивительно быстро теряют из это из виду, как только у них появляется стрёмная привычка обмениваться значениями p(doom) на вечеринках, будто это забавная научно-фантастическая история, а не утверждение о том, что действительно со всеми нами произойдёт.

Мы тут не говорим, что названные p(doom) близки к реальности. Но их стоит рассматривать как сообщения экспертов в области, что ситуация критическая.
10. Вопреки тому, что Хинтон говорит в видео до этого, уверенность Юдковского в опасности составляет не «99,999» процента. Пять девяток были бы безумной степенью уверенности.

Перевод:

Выменец Максим

Ссылка на оригинал:

Resources for Introduction

Оцените качество перевода:

Глава 1: Особая сила человечества

Элиезер Юдковский, Нейт Соарес

1.Часто задаваемые вопросы
2.Расширенное обсуждение

Глава 1: Особая сила человечества

Это онлайн-дополнение к Главе 1 книги «Если кто-то его сделает, все умрут». Ниже мы рассмотрим частые вопросы и раскроем темы из книги.

Некоторые темы не рассматриваются ниже, поскольку они уже освещены в Главе 1 книги. Среди них:

Что такое «интеллект»?
Могут ли машины стать умнее людей?
Существует ли практический предел уровня интеллекта?

Часто задаваемые вопросы

Интеллект – осмысленное понятие?

Да. Это слово описывает реальное явление, пусть его и трудно точно определить.

За последние тридцать лет люди получили семьдесят семь Нобелевских премий по химии, а шимпанзе – ни одной. Инопланетянин, впервые услышав об этом, мог бы заподозрить Нобелевский комитет в предвзятости. Но нет, в людях действительно есть нечто, что отличает нас от шимпанзе.

Мысль до банальности проста, но иногда такие вещи важны. Именно наши способности позволили нам высадиться на Луне и вручили судьбу планеты в руки людей, а не шимпанзе. Философы и учёные могут спорить об истинной природе интеллекта, но к какому бы выводу они ни пришли, само явление никуда не денется. Нечто в человеке позволило нам достичь невиданных в природе высот. Это нечто связано с нашим мозгом – с тем, как мы познаём мир и влияем на него.

Если вы не можете дать чему-то точное определение, это не значит, что оно не может вам навредить.

Если вы оказались в лесном пожаре, неважно, понимаете ли вы химию огня. Вы всё равно сгорите.

То же самое и с интеллектом. Если машины начнут превращать поверхность Земли в свою инфраструктуру, выделяя столько тепла, что океаны закипят, будет уже неважно, есть ли у нас точное определение «интеллекта». Мы всё равно погибнем.

Мы имеем в виду именно то, что говорим. В следующих главах мы объясним, почему ожидаем от сверхразумного ИИ таких крайних последствий. В Главе 3 мы покажем, что суперинтеллект будет преследовать свои цели. В Главе 4 – что эти цели не будут совпадать с тем, чего хотел или о чём просил любой человек. В Главе 5 – что для достижения своих устремлений ему будет выгоднее забрать ресурсы, нужные нам для выживания. А в Главе 6 – что он сможет развить собственную инфраструктуру и быстро сделать мир непригодным для жизни.

Чтобы создать интеллект, не нужно иметь его точное определение.
Люди научились добывать огонь до того, как поняли химию горения. Точно так же люди уже близки к созданию разумных машин, несмотря на недостаток понимания – как мы расскажем в Главе 2.

Не думайте об интеллекте как о математическом понятии, требующем точного определения. Лучше считать «интеллект» названием для наблюдаемого, но пока плохо нами понятого природного явления.

Что-то в человеческом мозге позволяет нам совершать поразительное множество вещей. Мы строим ускорители частиц, разрабатываем новые лекарства, изобретаем сельское хозяйство, пишем романы, проводим военные кампании. Нечто в наших умах позволяет нам делать всё это, а вот мыши и шимпанзе не могут ничего из перечисленного. Хоть у нас пока и нет полного научного понимания этого ментального различия, полезно дать ему имя.

Полезно и иметь возможность говорить об интеллекте, превосходящем наш собственный. Уже сегодня ИИ превосходят человека в разных узких областях. Например, современные шахматные программы сверхчеловечны в игре в шахматы. Естественно задаться вопросом, что произойдёт, когда мы создадим ИИ, превосходящие людей в научных открытиях, технологических разработках, социальных манипуляциях или стратегическом планировании. И так же логично спросить, что случится, когда появятся машины, которые будут лучше людей во всём.

Когда и если появится ИИ, способный проводить научные исследования мирового уровня в тысячи раз быстрее лучших учёных, мы сможем заявить, что он «не по-настоящему разумен», возможно, потому, что он приходит к выводам совсем не так, как человек. Это может быть даже правдой, в зависимости от выбранного определения «интеллекта». Но реальное влияние такого ИИ будет огромным, как бы мы его ни называли.

Нам нужна какая-то терминология, чтобы говорить о подобном влиянии и о машинах, радикально превосходящих нас в прогнозировании мира и управлении им. В этой книге мы выбираем простой путь и присваиваем ярлык «интеллект» именно способностям, а не конкретным внутренним процессам, что их порождают.

Имеет ли смысл понятие «человеческий уровень интеллекта»?

Во многих случаях, да.

Люди создали развитую технологическую цивилизацию, а шимпанзе – нет. Похоже, шимпанзе в каком-то смысле нам не ровня, хотя они общаются, используют инструменты и обладают многими впечатляющими навыками. Поэтому полезно говорить о «человеческом уровне», даже если использовать интеллект людей как мерило бывает проблематично.

Представьте, что однажды в глубинах космоса мы встретили инопланетную цивилизацию, примерно на нашем технологическом уровне. Эти существа могут ходить хуже людей, но плавать лучше. Они могут превосходить нас в состязательных играх вроде шахмат или покера, но уступать в абстрактной математике. Или наоборот. Их мышление может быть медленнее, но память – лучше, или наоборот.

Как определить, интеллект этих пришельцев – «человеческого уровня»? (И почему бы не спросить, достигает ли наш интеллект «инопланетного»?)

Говоря об «интеллекте человеческого уровня», мы имеем в виду свойство, благодаря которому люди способны создать и поддерживать технологическую цивилизацию, на что не способны шимпанзе.

С исторической (а точнее, с антропологической) точки зрения, похоже, в какой-то момент после расхождения путей людей и шимпанзе был преодолён некий порог. Дело не в том, что у людей – лучшие учёные, а у шимпанзе – посредственные, чьи статьи не воспроизводятся. Обезьяны не то что плохих научных статей не публикуют – они вообще писать не умеют! Мозг человека и шимпанзе биологически очень схож. Но мы перешли некую черту. За ней мы смогли создать цивилизацию, плавить железо, запускать ракеты в космос, читать и писать.

На первый взгляд, если отбросить все теории, кажется, будто прорвало некую плотину, и за ней хлынул огромный поток интеллекта. По какой-то неведомой причине, «началось».

Конечно, найдутся те, кто остроумно возразит этой идее. Но они будут придираться к словам и определениям, а не заявлять: «Я обнаружил свидетельства, что Homo erectus пытались строить ядерные реакторы два миллиона лет назад, просто у них это очень плохо получалось».

Похоже, достаточно мощный и универсальный интеллект для создания цивилизации появился в мире стремительно, чётко отделив Homo sapiens от остальных животных. Мы не держимся за ярлык «интеллект человеческого уровня», у него много недостатков. Но как это ни назови, полезно иметь понятие для тех, кто уже перешёл тот самый порог, в чём бы он ни заключался.

Разве интеллект не состоит из множества навыков?

Да, но они сильно пересекаются.

Допустим, я лучше моей сестры сочиняю классическую музыку, а она лучше меня пишет романы. Невозможно однозначно сказать, кто из нас «умнее», ведь это просто разные навыки. Так почему же осмысленнее говорить об ИИ «умнее» человека?

Наш ответ: если я лучше в чём-то одном, а сестра – в чём-то другом, однозначно сравнить нас затруднительно. Но если я преуспеваю в одном деле, а сестра – в двух тысячах, то уже как-то глупо настаивать, что мы на равных. Или утверждать, что о нашем положении вообще ничего нельзя сказать.

«Если кто-то его сделает, все умрут» – книга о вероятных практических последствиях будущего прогресса ИИ. Для осмысленного разговора об этих последствиях не нужно уметь сравнивать ChatGPT, людей и плодовых мушек и точно определять «уровень интеллекта» каждой из этих трёх систем. Достаточно видеть, что ИИ осваивают всё более широкий круг навыков и со временем превзойдут людей в тех, что имеют огромное практическое значение.

А интеллект не переоценён?

Только если вы используете слишком узкое определение «интеллекта».

Иногда мы сталкиваемся с такими утверждениями: «Интеллект – не всё, что нужно для успеха! Многие из самых успешных людей – харизматичные политики, руководители компаний или поп-звёзды! Умники в чём-то лучше, но миром правят не они».

Мы не оспариваем это утверждение. Скорее, «интеллектом» (в этой книге) мы называем то, что отличает не умников от качков, а людей от мышей.

В голливудском сценарии «умным» обычно называют персонажа с книжными знаниями. Может, он знаток истории или гениальный изобретатель. Может, он хорошо играет в шахматы или раскрывает преступления.

У голливудского «ботаника» есть свои сильные стороны, но они уравновешиваются стереотипными слабостями. Возможно, ему не хватает эмоционального интеллекта, здравого смысла или житейской хитрости. Может быть, ему недостаёт ловкости рук или харизмы.

Но харизма – не вещество из какой-то железы. Харизма, как и «книжные знания», – результат процессов в мозге. В том числе и неосознанных: поведение, делающее кого-то харизматичным, не всегда находится под его сознательным контролем. В конечном счёте, и харизма, и инженерный талант – часть неврологической разнецы между человеком и мышью. Не так важно, как эти две способности распределены между умниками и поп-звёздами.

«Искусственным интеллектом» мы называем не «искусственные книжные знания», а «искусственное всё-что-отделяет-человеческий-мозг-от-мышиного». Силу, что позволяет людям летать на Луну, оратору – доводить толпу до слёз, а солдату – метко целиться из винтовки. Всё сразу.

«Обобщённый интеллект» – осмысленное понятие?

Да.

Сапсан может пикировать со скоростью 380 километров в час. Кашалот может нырять на мили вглубь океана. Сапсан утонул бы в море, а кит бы плюхнулся обратно, попробуй он взлететь. Но люди как-то сделали себе металлические оболочки и смогли и полететь быстрее сапсана, и нырнуть глубже кита.

В эволюционном окружении наших предков не было ни глубокого океана, ни отбора по умению парить в небе. Мы справились с этими и многими другими задачами не благодаря особым инстинктам, а исключительно за счёт универсальности нашего разума.

Каким-то образом наши предки прошли отбор на умение в самом общем смысле хорошо решать задачи, хоть они и редко сталкивались с инженерной задачей сложнее, чем сделать копьё.

Это умение у людей идеально? Очевидно, нет. Люди, кажется, неспособны научиться играть в шахматы на уровне лучших шахматных ИИ, по крайней мере, с ограниченным временем на партию. Сверхчеловеческий уровень игры в шахматы очевидно возможен, но людям без посторонней помощи не доступен. Наш интеллект не универсален – то есть мы не можем научиться делать всё физически возможное.1 Эта «универсальность» людей не означает способности делать что угодно одним лишь мозгом. Но всё же человеческие способности учиться и решать новые задачи несравненно более общие, чем у узкоспециализированного шахматного ИИ вроде Deep Blue.

Но эта обобщённость – не всё или ничего. У неё есть разные уровни.

Deep Blue был не очень универсален – он не мог управлять ничем, кроме шахматной доски. Он был способен находить выигрышные ходы, но не съездить в магазина за молоком, или тем более открыть законы гравитации и спроектировать лунную ракету. Deep Blue не умел играть даже в другие настольные игры, будь то простые шашки или более сложная игра го.

Для контраста возьмём AlphaGo – ИИ, который наконец одолел го. Лежащие в его основе алгоритмы способны отлично играть и в шахматы. Го не поддалось первому же найденному человечеством шахматному алгоритму. Но вариант первого же алгоритма для го смог побить рекорды в шахматах, а заодно преуспел в видеоиграх на Atari. Пока что новые алгоритмы не умеют ходить в магазин за молоком, но они уже более общие.

Оказывается, одни виды интеллекта гораздо обобщённее других.

Но «обобщённость» точно определить ещё сложнее, чем «интеллект».

Легко сказать, что люди обобщённее плодовых мушек. Но как это работает?

Мы не знаем. Пока не существует зрелой формальной теории «обобщённости». Мы можем лишь рассуждать на пальцах: интеллект «более обобщён», если он способен предсказывать события и управлять ими в более широком диапазоне окружений, несмотря на большее разнообразие и сложных задач. Но у нас нет формализованной количественной меры этих окружений и задач, чтобы определение стало точным.

Звучит неубедительно? Мы тоже не в восторге. Мы очень надеемся, что человечество успеет лучше в этом разобраться, прежде чем пытаться создавать обобщённо разумные машины. Это помогло бы плачевной технической ситуации, которую мы опишем в главах 10 и 11.

Хотя у нас нет формального описания этого явления, наблюдения за окружающим миром всё же позволяют нам вывести кое-что про обобщённость.

Мы знаем, что люди не рождаются с врождёнными знаниями и навыками для постройки небоскрёбов и лунных ракет. Наши далёкие предки никогда не имели с ними дел, так что эти знания не могли закодироваться в наших генах. Всё это – результаты способности обучаться тому, чего мы не понимали от рождения.

Чтобы оценить обобщённость, надо смотреть не на то, сколько что-то знает, а сколько оно учится.

В некотором смысле люди обучаются лучше мышей. Не то чтобы мыши совсем этого не умели – например, они могут научиться проходить лабиринт. Но люди способны усваивать более сложные и странные вещи и эффективнее связывать фрагменты знаний воедино.

Как именно это работает? Что есть у нас, чего нет у мышей?

Представьте себе двух человек, которые после переезда учатся ориентироваться в новом городе.

Алиса запоминает нужные ей маршруты. Чтобы добраться от дома до хозяйственного магазина, она поворачивает налево на третьей улице, налево на втором светофоре, затем проезжает ещё два квартала и поворачивает направо на парковку. Отдельно она запоминает дорогу до продуктового и до офиса.

Бетти же изучает и усваивает карту города.

Алиса может хорошо справляться с повседневными поездками, но если ей придётся ехать в новое место без навигатора, у неё будут проблемы. Бет, напротив, тратит больше времени на планирование маршрутов, но у неё гораздо больше возможностей.

Алиса, возможно, быстрее на заученных маршрутах, но Бетти лучше справится с поездкой в любое другое место. У Бетти будет и преимущество в других задачах: например, в поиске маршрута с минимальными пробками в час пик или даже в проектировании уличной сети для другого города.

Похоже, существуют типы обучения, меньше похожие на запоминание маршрутов и больше – на усвоение карты. Похоже, некоторые ментальные инструменты можно повторно использовать и адаптировать к самым разным сценариям. Похоже, существуют блее глубокие типы мышления.

Мы подробнее поговорим на эту тему в главе 3.

«Интеллект» – это простая численная величина?

Нет. Но есть уровни, которых ИИ ещё не достиг.

Нам доводилось слышать мнение, что идея суперинтеллекта предполагает, будто «интеллект» – это простая, одномерная величина.2 Вольёшь в ИИ больше исследований, получишь больше «интеллекта» на выходе – как будто это не механизм, а жидкость, и её можно просто качать из-под земли.

Мы согласны с основной идеей этой критики. Интеллект – не простая скалярная величина. Не всегда можно создать более умный ИИ, просто завалив задачу вычислительными мощностями (хотя, судя по последнему десятилетию, иногда можно). Более высокий интеллект не всегда напрямую конвертируется в большую силу. Мир сложен; способности могут наталкиваться на ограничения и выходить на плато.

Но, как мы отмечали в главе 1, сложности, пределы и узкие места не означают, что ИИ самым удобным образом упрётся в стену где-то в районе человеческих способностей. В книге мы обсудили, что у биологического мозга есть ограничения, которых у ИИ нет.

У человеческого интеллекта много ограничений. Они не помешали нам слетать на Луну. Интеллект животных – не единая численная величина, но люди всё равно оставляют шимпанзе далеко позади. При всей сложности интеллекта, тут явно есть качественный разрыв.

Также и ограничения и слабые места искусственного суперинтеллекта могут не помешать ему оставить далеко позади уже нас. Если исследователи и инженеры продолжат гонку за созданием всё более способных ИИ, то качественный разрыв может образоваться уже между ИИ и людьми.

Сможет ли ИИ преодолеть критические пороги и «улететь»?

Вероятно.

С некоторых точек зрения, современный прогресс ИИ выглядит постепенным3. Например, по состоянию на лето 2025 года способность ИИ выполнять многоэтапные задачи последние несколько лет4 росла примерно по экспоненте. Можно сказать, что этот рост обнадёживающе гладок5. Значит ли это, что развитие ИИ будет плавным, медленным и предсказуемым?

Не обязательно. То, что какая-то величина растёт медленно, плавно или постепенно, ещё не значит, что результаты обязательно будут безобидными. Процесс ядерного деления непрерывен, но есть огромная разница между случаями, когда на каждый нейтрон высвобождается меньше одного нового (и реакция затухает), и когда высвобождается больше одного (и реакция усиливается).

Но нет никакого принципиального различия между базовыми механизмами этих двух типов ядерных реакций. Стоит добавить немного урана, и «коэффициент размножения нейтронов» плавно переходит от значения чуть меньше единицы к значению чуть больше единицы. Сверхкритические реакции не вызваны тем, что нейтроны ударяют по атомам урана с такой силой, что создают какие-нибудь «супернейтроны». Чуть больше того же вещества – а разница огромна. Это называется «пороговый эффект».

Случай людей и шимпанзе, по-видимому, свидетельствуетм в пользу того, что для интеллекта есть как минимум один пороговый эффект. Анатомически люди не так уж сильно отличаются от других животных. Мозги человека и шимпанзе внутри очень похожи. В обоих есть зрительная кора, миндалевидное тело и гиппокамп. У людей нет какого-то особого «инженерного» модуля, который объяснял бы, почему мы можем летать на Луну, а они – нет.

Нейронные связи немножко отличаются, и наша префронтальная кора более развита, чем у других приматов. Но на уровне общей анатомии главное отличие – наш мозг в три-четыре раза больше. По сути, мы используем увеличенную и немного улучшенную версию того же «железа».

И эти изменения в ходе эволюции не были внезапны. Мозг наших предков постепенно, шаг за шагом, увеличивался и совершенствовался. Этого хватило, чтобы довольно быстро (в масштабах эволюции) получился огромный качественный разрыв.

Если такое произошло с людьми, то, вероятно, может произойти и с ИИ.

Мы не знаем, насколько ИИ далёк от этих порогов.

Если бы мы точно знали, что именно позволило людям преодолеть порог к обобщённому интеллекту, мы бы понимали, как определить близость этого порога. Но, как мы обсудим во второй главе, у нас нет такого глубокого понимания интеллекта. Так что мы действуем вслепую, не зная, где эти пороги и насколько мы к ним близки.

Последние достижения в области ИИ позволили им лучше решать математические задачи и играть в шахматы. Но этого не хватило, чтобы они преодолели последний рубеж. Может, нужна всего лишь нейросеть в три-четыре раза больше – как разница между мозгом шимпанзе и человека6. А может, и нет! Возможно, потребуется совершенно иная архитектура и десятилетие научных прорывов, подобно тому, как современные чат-боты основаны на архитектуре, изобретённой в 2017 году (и доработанной к 2022).

Какие изменения в человеческом мозге дали нам преодолеть критический порог? Может, способность общаться. Или умение понимать абстрактные концепции, открывшее путь к более ценной коммуникации. А может, мы вообще мыслим не в тех категориях, и настоящий ответ нам и в голову не приходит. Или же это было сложное сочетание факторов, и каждый из них должен был развиться достаточно, чтобы в сумме получился интеллект, способный слетать на Луну.

Мы не знаем. И поэтому, глядя на современный ИИ, мы не можем понять, насколько он близок или далёк от этого критического порога.

Зарождение науки и промышленности радикально изменило человеческую цивилизацию. Появление языка, возможно, так же радикально повлияло на наших предков. Но «критическим порогом» для ИИ не обязано стать что-то из этого. Ведь в отличие от людей, ИИ изначально обладал некоторыми знаниями о языке, науке и промышленности.

А может, критическим порогом для человечества стало сочетание многих факторов, и каждый должен был развиться до определённого уровня, чтобы вся система заработала. ИИ может в чём-то отставать от гоминидов (например, в долговременной памяти), и совершить резкий скачок в практических умениях, как только последний винтик встанет на своё место.

Даже если все эти аналогии между ИИ и людьми не подтвердятся, скорее всего, найдутся другие механизмы, что сделают прогресс ИИ неровным и труднопредсказуемым.

Может, ИИ сдерживают проблемы с долговременной памятью и непрерывным обучением, которых у людей никогда не было. И как только эти проблемы будут решены, «щёлкнет», и ИИ словно обретёт «искру» разума.

Или (как обсуждается в книге) рассмотрим момент, когда ИИ сможет создавать более умных ИИ, а те, в свою очередь, – ещё более умных. Это будет петля положительной обратной связи – частая причина пороговых эффектов.

Не исключено, что существует десяток разных факторов, способных стать тем самым «недостающим элементом». И стоит какой-то лаборатории найти этот последний кусочек пазла, её ИИ резко уйдёт вперёд и оторвётся от остальных, подобно тому, как человечество отделилось от прочих животных. Критический момент может нагрянуть внезапно. И времени на подготовку у нас может не оказаться.

«Скорость взлёта», не влияет на конечный результат, но возможность «быстрого взлёта» означает, что действовать надо без промедления.

По большому счёту, пороговые значения не так уж важны для тезиса «Если кто-то его сделает, все умрут». Наши доводы не зависят от того, что какой-то ИИ выяснит, как рекурсивно самоулучшаться, и с невиданной скоростью превратится в суперинтеллект. Такое может произойти. Мы считаем это довольно вероятным. Но для нашего основного вывода – ИИ на пути к тому, чтобы всех нас убить, это не важно.

Наши аргументы зависят только от этого: ИИ будут всё лучше и лучше предсказывать события в мире и управлять им, пока не обгонят нас. Не особо важно, произойдёт это быстро или медленно.

Пороговые эффекты важны тем, что из-за них на угрозу надо отреагировать как можно скорее. Дожидаться ИИ, справляющегося со всеми умственными задачами слегка лучше любого человека – недоступная нам роскошь. Тогда времени может почти не остаться. Это как смотреть на разводящих огонь древних гоминидов, позёвывать и говорить «Разбудите меня, когда они доберутся до половины пути к Луне».

Гоминидам потребовались миллионы лет на полпути до Луны, и два дня, чтобы долететь. Когда речь может идти о пороговых эффектах, нужно быть начеку раньше, чем станет очевидно, к чему всё идёт. Потом может быть уже слишком поздно.

Разве ChatGPT — это ещё не обобщённый интеллект?

Можно и так назвать, если хотите.

ChatGPT и подобные модели обобщённее, чем ИИ, которые были до них. Они могут немного считать, писать стихи и какой-то код. ChatGPT не всегда хорошо с этим справляется (по состоянию на август 2025 года), но может делать очень много всего.

Вполне правдоподобно, что GPT-5 всё ещё уступает ребёнку в способности к обобщённым рассуждениям. Да, она может цитировать больше учебников. Но она, скорее всего, запомнила намного больше поверхностных шаблонов. А ребёнок для решения сопоставимых задач использует более глубокие мыслительные механизмы (иногда с лучшими результатами, а иногда нет).

Если бы нас, авторов, заставили их сравнивать, мы бы сказали, что в каком-то глубинном смысле ChatGPT кажется в целом глупее человека. И не только потому, что (на момент написания этих строк в июле 2025 года) у чат-ботов ограниченная эпизодическая память.

Некоторые тут же возразят: «Что вы имеете в виду? ChatGPT разговаривает, ведёт со мной глубокие эмоциональные беседы, решает сложные математические задачи и пишет код. Многие люди так не умеют. И где тут глупее человека?» Десять лет назад так никто бы не сказал. Это что-то говорит о прогрессе.

Мир сейчас, пожалуй, где-то на полпути между «ИИ очевидно глупее людей» и «Смотря что вы попросите ИИ сделать».

Может, чтобы преодолеть оставшееся расстояние, нужно лишь немного отмасштабировать – как мозг человека в целом похож на мозг шимпанзе, но в три-четыре раза больше. А может, архитектура в основе ChatGPT слишком поверхностна, чтобы поддерживать «искру» обобщения.

Может, есть некий важный компонент обобщённого интеллекта, попросту недоступный для современных алгоритмы ИИ. Где сработает, они компенсируют это огромным количеством практики и запоминания. Тогда не исключено, что для исправления этой слабости хватит одного гениального (и в то же время невероятно глупого) алгоритмического изобретения. И тогда ИИ смогут понимать практически всё, что понимает человек, и так же эффективно учиться на опыте. (Чтение и запоминание всего интернета при этом никуда не денется.) А может, для этого понадобится ещё четыре алгоритмических прорыва. Как уже обсуждалось в Главе 2, никто не знает.

«Обобщённый интеллект» – неоднозначное понятие.

Говоря «обобщённый ИИ», кто-то может иметь в виду, что ИИ обрели ту самую плохо изученную совокупность способностей, позволившую «взлететь» человеческой цивилизации.

Или можно иметь в виду, что ИИ развился как минимум до такой степени, чтобы люди оживлённо спорили, кто всё же умнее – человек или ИИ.

Или можно представлять себе момент, когда дискуссии прекратятся, потому что станет ясно, что ИИ во всех отношениях намного умнее любого человека. Или потому что дискутировать некому – человечество зашло слишком далеко, и ИИ положил конец всем нашим спорам и начинаниям.

Не было точного дня и часа, когда можно было сказать, что ИИ «начал играть в шахматы на уровне человека». Но когда шахматные ИИ смогли разгромить чемпиона мира среди людей, этот момент уже прошёл.

Всё это к тому, что ответ на вопрос «Обладает ли ChatGPT обобщённым интеллектом?» может быть и да, и нет – смотря, что именно вы под этим имеете в виду. (Это многое говорит о прогрессе ИИ за последние несколько лет! Deep Blue был очевидно довольно узкоспециализированным.)

Суперинтеллект – более важная черта

Из-за неоднозначности «интеллекта человеческого уровня», мы, как правило, будем избегать этого термина не в контексте сверчеловеческого ИИ. Так же мы обычно не используем и термин «сильный искусственный интеллект». Если нам понадобится обсудить одну из этих идей, мы изложим её более подробно.

Мы будем использовать «ИИ умнее человека», «сверхчеловеческий ИИ» или «суперинтеллект». А они подразумевают некое сравнение с человеком:

«ИИ умнее человека» или «сверхчеловеческим ИИ» (здесь и в книге) мы называем ИИ, обладающий той самой, отделяющей людей от шимпанзе, «искрой обобщения»; ИИ, который очевидно в целом лучше самых умных людей решает проблемы и выясняет истину.

Сверхчеловеческий ИИ может быть лишь слегка умнее лучших представителей человечества. Лучшие люди всё ещё могут опережать его в некоторых отдельных задачах. Но здесь и в книге мы будем считать, что «ИИ умнее человека» как минимум означает, что при честном сравнении по широкому набору непростых заданий ИИ покажет себя лучше наиболее компетентных людей, что бы это за задания ни были.
Под «суперинтеллектом» или «искусственным суперинтеллектом» (ИСИ) мы, в свою очередь, подразумеваем сверхчеловеческий ИИ, значительно превосходящий человеческий интеллект. Мы принимаем, что отдельные люди и существующие группы людей совершенно неспособны конкурировать с суперинтеллектом в любой области, имеющей практическое значение. Мы обосновываем это в Главе 6.

В книге термины «сверхчеловеческий ИИ» и «суперинтеллект» обычно будут использоваться как взаимозаменяемые. Различие становится актуальнее во второй части, где мы описываем сценарий захвата власти ИИ, где он изначально лишь немного умнее человека, но ещё не суперинтеллект. Мы проиллюстрируем, что суперинтеллект, вероятно, избыточен. Не исключено, что ИИ станет им довольно скоро, но чтобы вызвать вымирание человечества даже не нужно быть настолько умным.

Это очень приблизительные определения, но для целей этой книги их хватит.

Эта книга не предлагает сложную теорию интеллекта и какие-то её эзотерические следствия, предвещающие катастрофу. Нет, наши аргументы работают на довольно простом уровне, вроде:

В какой-то момент ИИ, вероятно, в полной мере овладеет тем, что позволяет людям (но не шимпанзе) строить ракеты, центрифуги и города.
ИИ когда-нибудь превзойдёт людей.
Мощные ИИ, вероятно, обретут собственные цели, к которым они будут упорно стремиться, потому что упорное стремление к целям полезно для самых разных задач (и, например, именно поэтому цели появились у людей в ходе эволюции).

Подобные утверждения, верны они или нет, не зависят от особого понимания всех тонкостей работы интеллекта. Мы видим несущийся на нас грузовик и без сложной модели его внутреннего устройства. Такова наша позиция.

Для таких простых доводов неважно, является ли ChatGPT «по-настоящему» интеллектом человеческого уровня или «по-настоящему» обобщённым интеллектом. Она умеет то, что умеет. Следующие ИИ будут уметь больше и лучше. Дальше мы будем обсуждать, куда этот путь ведёт.

Насколько умным может стать суперинтеллект?

Очень.

В Главе 1 был список, объясняющий, почему человеческий мозг далёк от физических пределах. Но к машинам ни один из пунктов не относится.

Законы физики допускают существование гениев, способных думать в десятки тысяч (а то и в миллионы или миллиарды) раз быстрее людей7, не нуждаться во сне или еде, создавать свои копии и обмениваться опытом.

И это ещё без учёта улучшения когнитивных способностей ИИ.

Для решующего перевеса может хватить даже превосходства над людьми лишь по одному-двум параметрам. На протяжении истории одни группы людей неоднократно занимали доминирующее положение над другими при помощи относительно небольших преимуществ в науке, технологиях и стратегическом планировании. Вспомните, например, испанских конкистадоров. И всё это без значительных различий в строении или размере мозга.

Даже небольшое интеллектуальное превосходство может обернуться огромными практическими выгодами и быстро приумножиться. Но вероятные преимущества ИИ выглядят отнюдь не скромными.

Больше аргументов о том, почему такой уровень интеллекта важен и как его можно превратить в реальную власть, см. в Главе 6.

Но разве нет больших препятствий на пути к суперинтеллекту?

Неясно.

В немалой мере, эта область продвигается вслепую. Может статься, серьёзных препятствий уже не осталось, и небольших изменений нынешних методов хватит для суперинтеллекта. Или для ИИ, достаточно умного, чтобы создать чуть более умный ИИ, который создаст ещё более умный ИИ, который создаст суперинтеллект.

Если серьёзные препятствия и существуют, мы не знаем, сколько времени у человечества на них уйдёт (с помощью ИИ или без).

Зато мы точно знаем, что ведущие лаборатории ИИ не скрываясь движутся в этом направлении и добиваются успеха. Когда-то машины не умели рисовать, говорить или программировать, а теперь умеют.

Эта область хорошо справляется с препятствиями.

Десятки лет ИИ с трудом мог отличить на картинке кошку от машины. Поворотный момент наступил в 2012 году, когда исследователи из Университета Торонто Алекс Крижевский, Илья Суцкевер и Джеффри Хинтон создали [AlexNet] – свёрточную нейронную сеть, значительно опередившую всё, что было до неё. Считается, что она дала старт современной революции в сфере ИИ. С тех пор искусственные нейронные сети лежат в основе почти всех ИИ-систем.

Раньше ИИ плохо играли в настольные игры. Даже после того, как в 1997 году шахматный ИИ [Deep Blue] победил гроссмейстера Гарри Каспарова, компьютеры с трудом справлялись с гораздо большим числом возможных ходов в игре го. Так было до 2016 года, когда [AlphaGo] победила чемпиона мира Ли Седоля. Она была обучена на тысячах человеческих партий, и в ней использовалась новая архитектура, сочетавшая глубокие нейронные сети с поиском по дереву. Победив в го, команда DeepMind применила тот же алгоритм в более общем виде, назвав его [AlphaZero], и обнаружила, что он доминирует и в других играх, таких как шахматы и сёги.

Ранние чат-боты были так себе собеседниками8. Затем, в 2020 году, развитие архитектуры «трансформер» привело к появлению GPT-3. Она была достаточно продвинута, чтобы переводить текст, отвечать на вопросы и даже писать новостные статьи, похожие на настоящие. После небольшого дообучения, чтобы она вела себя как чат-бот, она стала самым быстрорастущим потребительским приложением в истории.

Существуют ли барьеры, отделяющие современные ИИ от «серьёзных» ИИ, способных стать суперинтеллектом или создать его?

Не исключено. Может, нужны новые архитектурные находки. Как находки в основе AlexNet, открывшие всю область современного ИИ. Как находки в основе AlphaZero, позволившие ИИ хорошо играть в разные игры, используя один алгоритм. Или как находки в основе ChatGPT, давшие компьютерам заговорить. (Или нет. Возможно, современные ИИ незаметно пересекут некий порог, и всё.)

Но если препятствия и остались, специалисты в этой области, вероятно, их преодолеют. Они в этом неплохо разбираются, и сейчас над этим работает гораздо больше исследователей, чем в 2012 году.

По состоянию на июль 2025 года, ИИ с трудом справляются с задачами, требующими долговременной памяти и последовательного планирования, например, с игрой Pokémon. Можно поддаться искушению и вместе со скептиками посмеяться над последними неудачами: как могут машины, пасующие перед простыми видеоиграми, быть хоть сколько-нибудь близки к суперинтеллекту?

Точно так же в 2019 году ИИ с большим трудом могли связно говорить. Это не означало, что до успеха было двадцать лет. Лаборатории усердно работают над выявлением препятствий, мешающих системам выполнять определённые задачи. И, вероятно, они близки к созданию новых архитектур, которые лучше справятся с долговременной памятью и планированием. Никто не знает, на что будут способны такие ИИ.

Если после этого ИИ всё ещё не смогут автоматизировать научные и технологические изыскания (включая разработку ещё более умных ИИ), исследователи просто переключатся на следующее препятствие. Они будут и пробиваться всё дальше, если только человечество не вмешается и не запретит подобные разработки, – эту тему мы рассмотрим в следующих главах.

А разве вообще можно предсказать поведение суперинтеллекта?

Не во всём, но в чём-то да.

Stockfish 17 лучше нас управляет ситуацией на шахматной доске. Если бы мы играли с ним в шахматы, то не смогли бы предсказать его ходы – для этого надо играть как минимум не хуже него. Но угадать победителя легко9. Сложно сказать, как Stockfish будет ходить, но просто – что он выиграет.

То же самое с ИИ, предсказывающими события и направляющими реальный мир. Чем они умнее, тем сложнее в точности предсказать их действия, но тем легче предсказать, что они достигнут цели, к которой стремились.

А машины не будут по сути своей неспособны на творчество или обладать ещё какими-нибудь фатальными слабостями?

Нет.

В основном мы отложим вопрос о творческих способностях машин до главы 3. Однако здесь скажем вот что: машины не обязаны обладать каким-то фатальным недостатком, который уравнял бы их с людьми и дал бы неукротимому человеческому духу шанс на победу.

Если бы у дронтов была своя киноиндустрия, в их сценариях о вторжении людей на остров Маврикий, оружие и сталь людей могли бы компенсироваться недостатками. Возможно, вызванная интеллектом экзистенциальная тоска заставила бы людей в последний момент в отчаянии замереть – ровно на столько, чтобы героические дронты смогли контратаковать и заклевать всех до смерти.

Или, наверное, дронтам понравилась бы такая история: интеллект в принципе не может давать военное преимущество над крепкими клювами. У большого мозга людей должен быть некий фатальный изъян, что в итоге позволит гордым дронтам победить.

На самом деле кажущиеся преимущества людей реальны. Слабости человеческого мозга не делают его в итоге хуже птичьего в военном конфликте. Противостояние людей и дронтов – неравная борьба, вот и всё.

Даже в войнах между людьми пулемёты – достаточное преимущество, чтобы армия с ними обычно побеждала противника без них. Из этого правила есть редкие исключения. Их любят пересказывать, потому что исключения – более занятная история, чем норма. Но в реальной жизни исключения случаются куда реже, чем в рассказах.

Мы прогнозируем то же самое о продвинутых ИИ с огромной памятью и разумом, способных копировать себя тысячами и думать в десять тысяч раз быстрее человека; о разумах, способных рассуждать более здраво, быстрее и точнее делать выводы из меньшего числа горьких уроков и самосовершенствоваться.

Это не вопрос с подвохом, и никакого потрясающего сюжетного поворота не будет, как бы нам ни хотелось.

Разве в людях нет чего-то особенного, что какие-то там машины никогда не смогут имитировать?

Это кажется маловероятным, да и не особо важным.

Человеческий мозг и тело состоят из частей, которые мы можем изучать и изучить. В мозге есть многое, чего мы не понимаем, но это не значит, что оно работает на магии и люди никогда не смогут создать ничего подобного. Только что человеческий мозг – невероятно сложная машина. В нём сотни триллионов синапсов, и нам ещё предстоит долго разбираться во всех важных высокоуровневых принципах его работы.

Интеллект тоже состоит из частей – алгоритмов и отдельных вычислений. Наш мозг выполняет их, хоть у нас и нет научного понимания его работы.

Даже если бы какой-то аспект биологического мышления было очень трудно реализовать в машинах, это бы не означало, что ИИ никогда не превзойдёт человечество. ИИ мог бы просто выполнять ту же работу иначе. Deep Blue определял выигрышные шахматные ходы совсем не так, как Гарри Каспаров.10 Важно не то, обладают ли машины всеми уникальными чертами людей, а то, смогут ли они предсказывать и направлять события.

В следующих главах мы обсудим это подробнее. В Главе 2 мы расскажем, как современные ИИ скорее выращены, чем построены, и как процесс выращивания делает их очень способными. Затем в Главе 3 мы рассмотрим, как попытки сделать ИИ всё более компетентными ведут к тому, что они всё больше стремятся к достижению сложных целей. А в Главе 4 мы обсудим, что эти цели вряд ли будут теми, которые задумывали разработчики или о которых просили пользователи. Всего этого достаточно, чтобы ИИ привели мир к гибели, и не важно, есть ли у них некая жизненная искра, сознание или что-то ещё, по-вашему, делающее людей особенными.

См. также в будущих онлайн-ресурсах:
- Глава 2: «[Разве ИИ – это не „просто математика“?]» и «[Разве ИИ не будут холодными, механистичными, излишне логичными или лишёнными какой-то важной искры?]»
- Глава 3: «[Антропоморфизм и механоморфизм]»
- Глава 5: «[Эффективность, сознание и благополучие ИИ]»

Вы хотите сказать, что машины обретут сознание?

Необязательно, и нам это кажется отдельной темой.

В «Если кто-то его сделает, все умрут» мы вообще не касаемя машинного сознания. Она посвящена машинному интеллекту. Чтобы говорить о сознании, сначала надо уточнить, что конкретно мы имеем в виду.

Когда кто-то спрашивает: «Есть ли у моей собаки сознание?», он может иметь в виду несколько разных вещей, например:

Мухтар и правда что-то понимает или только следует сложным инстинктам? Он думает или так лишь кажется?
Осознаёт ли он себя? Что он существует? Он может размышлять о своём мыслительном процессе и строить сложные ментальные модели самого себя?
Есть ли у него подлинные субъективные переживания? Есть ли у него своя внутренняя точка зрения, или он лишь бездушный биоробот? Быть моей собакой – это как-то? Когда я надолго ухожу, он воет, будто скучает по мне. Это потому, что он действительно скучает (или что-то подобное)? Или он скорее как простая компьютерная программа, лишённая сознания, и просто демонстрирует такое поведение, ничего не чувствуя?

Про ИИ можно задать аналогичные вопросы.

Есть ли у ChatGPT «настоящее понимание»? Что ж, она способна очень хорошо выполнять одни сложные когнитивные задачи и не очень хорошо – другие. Она отлично справляется с кучей новых заданий, которые не встречались ей при обучени и требуют по-новому, творчески синтезировать и изменять информацию. В какой-то момент вопрос, «действительно ли она понимает», становится скорее спором об определениях. Практически важный вопрос, более значимый для нашего выживания, – какими реальными возможностями ИИ обладают сейчас и какие, скорее всего, проявят в ближайшие месяцы и годы.
Осознаёт ли ChatGPT себя? Опять же, ChatGPT, по-видимому, хороша в одних аспектах моделирования себя и плоха в других. Есть серьёзный фактор, затрудняющий дело: вся парадигма в основе ChatGPT была нацелена на то, чтобы системы звучали так, будто осознают себя, отвечали как люди. Можно дискутировать о том, перешла ли ChatGPT некие важные границы самосознаниия, и о том, какие рубежи ещё впереди. Но рано или поздно стоит ожидать появления ИИ, обладающих чрезвычайно мощными практическими способностями к пониманию и рассуждению о себе – умением отлаживать самих себя, проектировать новые, улучшенные версии себя, строить сложные планы относительно своего положения в мире и так далее.
Есть ли у ChatGPT подлинные субъективные переживания?

Последний из этих вопросов – самый философски сложный. Ещё он приводит к рассуждениям, являются ли ИИ, подобные ChatGPT, объектами, заслуживающими морального отношения. Мы обсудим это позже, в расширенных рассуждениях к главе 5.

Когда мы используем слово «сознающий», мы имеем в виду как раз «обладающий субъективным опытом», а не самомоделирование и глубокое практическое понимание.11

Наше лучшее предположение: сегодняшние ИИ, вероятно, не обладают сознанием (хотя с каждым годом мы всё менее в этом уверены), а для суперинтеллекта субъективный опыт не обязателен.

Но это лишь догадки, хотя и основанные на немалых размышлениях и теоретизировании. Мы совсем не считаем глупыми опасения, что некоторые нынешние или будущие системы ИИ могут обладать сознанием. Или переживания, что мы можем плохо обращаться с современными ИИ, особенно когда они, например, угрожают покончить с собой12, потому что не получилось исправить баг.

Любая сущность, которую мы сочли бы суперинтеллектом, обязательно должна очень хорошо моделировать себя: обдумывать собственные вычисления, улучшать свои ментальные эвристики, понимать и предсказывать влияние своего поведения на окружающую среду и так далее. Мы склоняемся к тому, что самосознание человеческого типа – лишь один из способов, которым разум может эффективно себя моделировать. Это не обязательное условие для рефлексивного мышления.

Возможно, сознание – важный элемент того, что позволяет людям так хорошо манипулируют миром. Но это не значит, что без него машины будут неполноценными и не смогут предсказывать мир и направлять события. Подводные лодки плавают не так, как люди, а совершенно иным способом. Мы ожидаем, что ИИ сможет справляться с теми же задачами, что и человек, но не обязательно через тот же канал субъективного опыта.

(См. также аналогичный случай любопытства в дополнении к главе 4.)

Или, кровь очень важна для работы человеческой руки, но это не значит, что руке робота она тоже необходима. Отсутствие крови не делает руку робота неполноценной, как сделало бы человеческую. Они просто работают по-разному. Наша лучшая догадка: машинные суперинтеллекты тоже будут работать по-другому, бессознательно. Но для наших аргументов это и не важно.

В «Если кто-то его сделает, все умрут» в центре внимания интеллект, определённый как способность мыслящего существа предсказывать мир и направлять события. И неважно, работает ли его мозг как человеческий. Если ИИ изобретает новые технологии и инфраструктуру и распространяет их по планете так, что как побочный эффект мы все погибнем, то вопрос «Но есть ли у него сознание?» кажется несколько неуместным.

Мы подробнее разберём, почему мы считаем, что предсказание и направление, скорее всего, не требуют сознания (и что это значит для наших размышлений о благополучии и правах ИИ), после Главы 5, когда заложим необходимую основу. См. раздел «Эффективность, сознание и благополучие ИИ».

Расширенное обсуждение

Подробнее об интеллекте как предсказании и направлении

Если вы спросите мудрого физика, что такое двигатель, он может сначала указать на ракетный двигатель, дизель и хомячье колесо и сказать: «Это всё – двигатели». А потом на камень и добавит: «А это – нет».

Это было бы описание через примеры двигателей в мире, а не через словесное определение. Если вы попросите его всё же дать словесное определение, он может сказать, что двигатель – это всё, что преобразует немеханическую энергию в механическую – в движение.

Это утверждение описывает скорее функцию двигателя, а не его устройство. Совершенно разные вещи могут быть двигателями. Мало чего полезного можно сказать про ракету, электромотор и мышцы хомяка сразу. Только что они преобразуют другие виды энергии в механическую.

Мы бы сказали, что с интеллектом похожая ситуация. Есть много разных биологических и механических «устройств», способных его порождать. «Интеллект» – всё, что выполняет работу интеллекта.

Мы разделяем эту работу на «предсказание» и «направление». Есть формальные результаты, подкрепляющие такую точку зрения.

Сначала мы обсудим, в каком смысле уровень предсказания довольно объективен. Затем мы сравним это с направлением. У него есть дополнительная степень свободы.

Одинаковые предсказания

Проверить, насколько кто-то хорош в предсказаниях, – задача относительно нехитрая. Как минимум, в случаях, когда предсказание имеет форму «увижу X», а потом X действительно видят.

Можно оценивать и успешность неуверенных прогнозов. Допустим, вы думаете: «Небо почти точно сейчас голубое, но, всё же, может, и серое. И наверняка не чёрное». Если вы выглянете в окно, а небо и правда будет голубым, вы должны получить больше очков, чем если бы оно было серым, и гораздо больше, чем если чёрным.

Если бы вы были исследователем ИИ, пытающимся представить эти ожидания в виде чисел на компьютере, вы могли бы заставить подопытный ИИ подбирать числа, чтобы показать, насколько сильно или слабо он ожидает разных исходов. Затем вы бы подкрепляли поведение пропорционально тому, насколько высокое число ИИ присвоил правильному ответу.

Конечно, всё бы быстро пошло не так, как только ИИ научился бы присваивать каждому возможному исходу значение в три октотригинтиллиона.

(По крайней мере, именно такая проблема и возникла бы, если бы вы обучали ИИ с помощью современных методов. Введение в них см. в Главе 2.)

— Ой, – могли бы вы сказать. – Числа, присвоенные взаимоисключающим и исчерпывающим вариантам, в сумме должны давать не больше ста процентов.

Когда вы попробуете снова, вы обнаружите, что ИИ всегда присваивает 100 процентов одному-единственному варианту, который считает самым вероятным.

Почему? Допустим, ИИ считает, что наиболее вероятный исход имеет шанс примерно восемь из десяти. Тогда стратегия присвоения ста процентов самому вероятному ответу получает стопроцентное же подкрепление в восьми случаях из десяти, что в среднем даёт силу подкрепления 0,8.

Для сравнения, стратегия присвоения восьмидесяти процентов наиболее вероятному ответу и двадцати процентов – противоположному получает восьмидесятипроцентное подкрепление в 8 случаях из десяти и двадцатипроцентное — в двух. В среднем это даёт силу подкрепления всего 0,64. В итоге, стратегия «присваивать сто процентов одному ответу» получает большее подкрепление и побеждает.

Если вы хотите, чтобы подкрепление мотивировало ИИ присваивать восемьдесят процентов вариантам, которые случаются восемь раз из десяти, следует использовать логарифм вероятности, присвоенной истинному варианту. Это не единственный способ. Но только у взятия логарифма есть дополнительное полезное свойство. Благодаря ему, когда ИИ предсказывает несколько исходов (например, цвет неба и влажность земли), неважно, считать это одним большим вопросом (о том, голубое ли небо и сухо ли на улице, голубое и влажно, серое и сухо или серое и влажно) или двумя (о голубом против серого и о сухом против влажного).

Сегодня исследователи действительно обучают ИИ делать предсказания, заставляя их выдавать числа, которые мы интерпретируем как вероятности, и подкрепляя их пропорционально логарифму числа, присвоенному истине. Но это не просто эмпирический результат обучения машин. Это теоретический вывод. Он был известен задолго до обучения ChatGPT. Зная эту теорию, вы могли бы заранее правильно предположить, что хороший способ научить ИИ предсказывать – оценивать прогнозы с помощью логарифмов.

Для понимания аргументов в «Если кто-то его сделает, все умрут», знать эту математику не обязательно. Но именно такие принципы лежат в основе наших разговоров о «предсказании» и «направлении».

Есть [математика] о предсказаниях. Она гласит: если ваши ожидания о том, что произойдёт, полезны, их можно выразить в виде вероятностей, даже если вы сознательно о численных вероятностях не думали. И есть лишь один [метод оценки], который мотивирует вас сообщать свои истинные вероятности и для которого неважно, на сколько частей вы разобьёте предсказание.

Суть в том, что предсказания можно объективно оценивать. Когда некий разум или машина пытается угадать цвет неба за окном, следующее слово на веб-странице, или ближайший дорожный знак на пути в аэропорт, есть (грубо говоря) только один действительно хороший способ оценить, насколько он справляется.

Это не значит, что чтобы быть умным, надо бормотать числа о цвете неба, прежде чем выглянуть в окно. Когда вы ожидаете увидеть голубое или серое небо, а не чёрное, что-то в вашем мозгу действует схоже с калькулятором вероятностей, осознаёте вы это или нет.

Любой процесс, похожий на предсказание, будь то явное утверждение, безмолвное ожидание или что-то совсем иное, подчиняется объективному правилу оценки.

Так что, когда два разума работают с одинаковой исходной информацией, их предсказания будут всё больше сближаться по мере того, как они всё лучше и лучше справляются с прогнозированием. Есть лишь один способ оценивать прогнозы (сверяя их с реальностью), и лишь одна реальность. Если разум лучше предсказывает, он почти по определению будет больше концентрировать свои ожидания на истине.

Всё это разительно отличается от ситуации с направлением. К нему и перейдём.

Разные цели

Предсказания двух разумов, которые оба очень в них хороши, будут, скорее всего, похожи.

А вот с направлением другое дело. Два разума, которые очень хороши в направлении событий, зачастую не будут направлять их к одной и той же цели.

Чтобы думать об интеллекте более конкретно, полезно иметь в виду эту разницу. А ещё она соответствует разделению на простые и сложные инженерные задачи в области ИИ.

Когда вы обучаете ИИ предсказывать, все лучшие методы в некотором смысле приведут к одному и тому же. (При условии, что система вообще становится компетентной. Способов провалиться гораздо больше.)

Предположим, вы обучаете ИИ предсказывать следующий кадр с веб-камеры, снимающей небо за окном. Почти любая модель, когда начнёт достаточно хорошо с этим справляться (то есть заранее присваивать гораздо более высокую вероятность тому, что действительно потом увидит), будет предсказывать ясное, серое от туч или тёмное небо, но не небо в клеточку.

Какую конкретно технологию вы используете, в конечном счёте, не столь важно. Любой рабочий и получающий высокие оценки метод в итоге присвоит синему цвету неба примерно одну и ту же вероятность.

А у задачи «направления», напротив, есть огромный и сложный свободный параметр: к какой цели система стремится?

Генералы противоборствующих сторон могут быть одинаково искусны, но это не значит, что они пытаются достичь одного и того же. Два полководца могут обладать схожими навыками, но использовать их для совершенно разных целей.13

Предсказательная часть ИИ-системы может работать очень хорошо только если она заранее присваивает высокие вероятности итоговым наблюдениям. Когда система начинает лучше прогнозировать, она, вероятно, совершенствует как раз те предсказания, что вам нужны. В рамках схемы обучения возможен только один «вид» прогнозов. Преуспевающая система, скорее всего, именно его и делает.

Чтобы исправить ошибочные предсказания системы, может хватить просто добавления вычислительной мощности и обучающих данных. Можно сделать систему лучше (в предсказаниях важных для вас вещей), просто сделав её мощнее.

С направлением это не так.

Есть и формальные результаты, подтверждающие это различие. Учёные много изучали «направление» – планирование, принятие решений, обход препятствий, проектирование и так далее. Один важный математический результат из этой области – [теорема фон Неймана — Моргенштерна о полезности].

Перескажем эту теорему простыми словами. Пусть сущность предпочитает одни результаты другим. Либо она неэффективна, либо она хорошо описывается набором вероятностных убеждений и «функцией полезности». Функция полезности определяет, насколько одни исходы лучше или хуже других. Убеждения можно оценить по их точности, как было описано выше. А вот функция полезности – полностью свободный параметр.

Разумеется, конечный разум не может быть совершенно эффективным. Но эта теорема и другие подобные результаты дают важный урок. Чтобы очень эффективно решать любую нетривиальную задачу, разуму в некотором смысле (пусть неявно и неосознанно) надо выполнять два отдельных вида работы: по составлению корректных убеждений (предсказание) и по достижению целей (направление).

Возьмём басню Эзопа о лисе и винограде. Лисица видит аппетитные гроздья винограда, висящие на лозе. Она прыгает за ними, но не получается. Тогда она оставляет эту затею со словами: «Да он, наверное, всё равно кислый».

Если поверить лисице на слово, её (не)способность добраться до винограда «протекает» в её предсказание о его вкусе. Если она и дальше будет придерживаться этого нового мнения и из гордости откажется есть «кислый» виноград, получив шанс это сделать, её поведение неэффективно.14 Она могла бы справиться лучше, чётче разделяя свои предсказания (сладости винограда) и свою способность к направлению (достать виноград).

Грубо говоря, работу эффективно действующих разумов можно разделить на «что они предсказывают» и «к чему они стремятся» (плюс некоторая неэффективность). Как мы видели, первое можно оценить довольно объективно, а вот второе может сильно различаться даже у одинаково компетентных умов.

Не только предсказатели

К сожалению, большая ограниченность предсказание по сравнению с направлением не означает, что мы можем создать надёжный суперинтеллект, который будет только предсказывать, но не направлять события.

Математика говорит, что хорошо работающий разум можно смоделировать как «вероятностные предсказания плюс направление». Но это не значит, что у реальных ИИ есть чётко разделённые модули «предсказания» и «направления».

Можно посмотреть на это так: сверхчеловечески точное «предсказание» – не просто выдача правильных вероятностей по-волшебству. Для хорошего предсказания надо поработать. Оно требует планирования и продумывания способов достижения долгосрочных целей – требует направления.

Иногда, чтобы предсказать физический мир, нужно составлять физические теории и открывать управляющие ими уравнения. А для этого часто надо разрабатывать эксперименты, проводить их и наблюдать за результатами.

А это требует планирования. Это требует направления. Если на полпути к созданию экспериментальной установки вы поймёте, что нужны магниты помощнее, придётся проявить инициативу и изменить курс. Хорошие предсказания не даются даром.

Даже выбор, какие мысли думать и в каком порядке – пример направления (пусть люди часто и делают это неосознанно). Тут нужна какая-то стратегия и выбор под задачу правильных инструментов. Чтобы ясно мыслить и, следовательно, лучше предсказывать, нужно организовывать свои мысли и действия для той или иной долгосрочной цели. (Мы вернёмся к ключевой роли направления в главе 3, «Научиться хотеть».)

Сформулируем ещё раз математическое различие между предсказанием и направлением. Есть в общем-то один «правильный» набор предсказаний. Разум можно подтолкнуть к нему с помощью верной системы оценок. Но нет (объективно, независимо от «для кого») одного «правильного» пункта назначения.15 Когда ИИ обучают быть более способным, это уточняет его предсказания. Но это не «направляет» его автоматически на тот результат, который люди считают хорошим. Потому что точность объективна, а «хорошесть» – это и есть то, куда кто-то направляется.

Все идеальные предсказания одинаковы. Идеальные «направления» – нет.

Теоретически, должны существовать способы убедиться, что ИИ направляет события туда, куда нам надо. На практике это сложно. Эта задача сильно отличается от «сделать ИИ в целом умнее и способнее», и нет (простой, не-«обыгрываемой») метрики или правила оценки, чтобы определить, в какой степени ИИ пытается направлять события именно к той цели, которую мы от него хотим.

Мы подробнее обсудим эти темы в Главах 4 и 5.

Множество форм интеллекта

Нечто может хорошо предсказывать и направлять, не имея при этом почти ничего общего с человеческим мозгом.

Фондовый рынок выполняет работу по узкоспециализированному предсказанию цен на акции компаний. Цена акций Microsoft сегодня – довольно неплохой прогноз того, какой она будет завтра.16

Допустим, завтра руководители компании предоставят отчёт о доходах и расскажут об успехах за последний квартал. Сегодня цена акций высокая? Это подсказывает, что завтрашние отчёты будут радужными. Низкая? Значит, отчёты будут мрачными.

Рынки в этом отношении довольно точны, потому что люди могут разбогатеть, исправляя их ошибки. Так что рынки неплохо справляются с работой по предсказанию в этой узкой области. Они предсказывают движение краткосрочных цен на корпоративные акции (и, косвенно, такие вещи, как урожайность и продажи автомобилей) для очень широкого спектра товаров и услуг. И делают это гораздо лучше, чем любой отдельный человек.

Некоторые люди могут предсказывать движение отдельных цен лучше, чем весь остальной фондовый рынок. Это делает их очень богатыми. Уоррен Баффетт заработал двенадцать миллиардов долларов за шесть лет, [вложившись в Bank of America], когда тот шатался после финансового кризиса 2011 года. Но даже тогда он предсказывал поведение лишь одной компании из огромного множества. Если бы кто-то обычно знал лучше рынка, то смог бы ошеломительно быстро заработать безумные деньги. Ни у кого не получается. Значит, по сути никто не прогнозирует большинство цен на акции лучше рынка.

Что касается направления, Stockfish узкоспециализированно делает это в шахматах. В партии против человека он очень искусно делает ходы, направляющие мир шахматной доски в позиции, где фигуры Stockfish поставили мат королю противника. Какие бы хитрые ходы ни придумывал человек, как бы он ни боролся (если только не выключит Stockfish), тот обеспечит такой финал. Он управляет событиями на шахматной доске лучше любого отдельного человека.

Надеемся, теперь ясно, почему мы не определяем интеллект как-то вроде «Ну, должен быть какой-то модуль обучения, и какой-то модуль размышления, и какие-то детали, создающие искру хотения». Ведь, если смотреть на внутреннее устройство, фондовый рынок, Stockfish и человеческий мозг отличаются не меньше, чем ракетный двигатель, электромотор и хомячье колесо.

Что-то обладает интеллектом, если оно выполняет работу интеллекта.

По крайней мере, при нашем определении «интеллекта» в этой книге. И учёные в области информатики и исследователи ИИ обычно думают о нём так же. Если вы хотите в других контекстах определять интеллект как-то по другому, мы не против. Это лишь слова.

Но чтобы правильно понять, что мы утверждаем в «Если кто-то его сделает, все умрут», когда упоминаем «искусственный интеллект», не думайте об «искусственной эрудиции», «искусственном сознании» или «искусственной человекоподобности». Думайте об «искусственном предсказании и направлении».

Поверхностность современных ИИ

В этой главе мы писали, что современные (на середину-конец 2025 года) ИИ явно «поверхностны», если знать, куда смотреть. Если вы сами ещё не замечали, вот несколько примеров:

Claude 3.7 Sonnet от Anthropic [зацикливалась], пытаясь пройти нехитрую видеоигру про покемонов.
В ноябре 2022 года одной из лучших в мире программ для игры в го был KataGo. По крайней мере, пока исследователи не нашли способ [побеждать] его с помощью предсказуемой серии ходов. Она вызывала своего рода «слепое пятно», и KataGo делал грубую ошибку, которую не допустил бы даже любитель. За два года инженеры [так и не смогли сделать его устойчивым] к подобным атакам.
Современные «мультимодальные» LLM (те, что могут работать не только с текстом, но и с изображениями и другими данными) с трудом считывают время и дату с часов со стрелками и календарях. Большинство четвероклассников с этим справляется.
Частый пример: современные большие языковые модели неправильно отвечают на простые вариации классической загадки про доктора, где подвох убран и ответ совершенно прямолинеен. Кажется, они не в силах удержаться и не выдать ответ-обманку, на который подлавливает обычная версия загадки.

(В онлайн-материалах к Главе 4 с технической точки зрения более подробно рассматривается, чем такая поверхностность может быть вызвана.)

Это не значит, что ИИ глупы во всём. Современные ИИ могут на уровне золотых медалистов решать задачи с Международной математической олимпиады – сложного и уважаемого соревнования. Они невероятно много чего умеют, часто не хуже или даже лучше людей.

Их набор навыков странный. Человеческие сильные и слабые стороны – плохой ориентир для понимания того, что ИИ покажется легче или сложнее. ИИ по сути своей радикально отличаются от людей в очень многом.

Мы [не] говорим, что ChatGPT убьёт вас завтра. В современных ИИ всё ещё есть некоторая поверхностность. Скорее, мы наблюдаем, что область развивается, и неясно, [долго ли она ещё будет].

Осознание силы интеллекта

Голливудский «интеллект»

Концепция «интеллекта» в нашем понимании плохо представлена в массовой культуре, как под этим, так и под любым другим названием.

Голливудские фильмы печально известны среди учёных тем, что неверно показывают почти каждый аспект науки, которого касаются. Специалистов это тревожит, ведь многие люди действительно черпают представления о науке из кино.

То же самое происходит и с изображением интеллекта в Голливуде.

Мы видели много неудачных попыток серьёзно обсудить настоящий суперинтеллект. Часто эти разговоры заходят в тупик, когда люди не понимают, что «суперинтеллект» на самом деле значит.

Представьте, что играете в шахматы против бывшего чемпиона мира Магнуса Карлсена (которого ещё более сильные шахматные ИИ считают лучшим игроком в истории). Главный вывод из «Карлсен умнее (в области шахмат)», – он вас победит.

Если вы сами не очень хороши, то, вероятно, вы проиграете даже если Карлсен даст вам фору в ладью. Утверждение «Карлсен умнее меня в шахматах» можно понимать так: он способен выиграть у вас партию даже с меньшими ресурсами. Его когнитивное преимущество достаточно сильно, чтобы компенсировать материальный недостаток. Чем больше разница в ваших умственных способностях (в шахматах), тем больше фигур Карлсен должен вам уступить, чтобы играть с вами примерно на равных.

Есть своего рода уважение, которое вы оказываете Магнусу Карлсену в области шахмат. Оно проявлялось бы в том, как вы интерпретируете его ходы. Представьте, что Карлсен делает ход, и он кажется вам плохим. Вы не потираете руки в предвкушении его ошибки. Вместо этого вы смотрите на доску, чтобы понять, что вы упустили.

Это редкий вид уважения одного человека к другому! Чтобы заслужить его от незнакомца, обычно нужно быть исключительно хорошим сертифицированным профессионалом. И то уважение будет касаться только этой одной профессии. Ни у кого на Земле нет всемирной репутации человека, никогда не совершающего глупостей в целом.

И это концепция интеллекта, которую Голливуд вообще не понимает.

Для Голливуда было бы характерно показать, как десятилетний ребёнок ставит мат Магнусу Карлсену, «[делая нелогичные ходы]». Ни один профессиональный шахматист не стал бы их рассматривать, потому что они слишком безумны. И так ребёнок застаёт Карлсена «врасплох».

Когда Голливуд изображает «суперумного» персонажа, он обычно опирается на стереотипы о «ботаниках против качков» и показывает, что более умный герой, скажем, неумел в романтических отношениях. Иногда ему просто дают британский акцент и изысканный словарный запас, и сойдёт.

Голливуд обычно не пытается изобразить «суперумного» персонажа делающим точные прогнозы или выбирающим действительно работающие стратегии. Для таких героев нет стандартного голливудского тропа. К тому же, это исключило бы «сюжеты, построенные на глупости» (требующие чтобы персонаж сделал нечто глупое для самого себя, но удобное для сценариста), а их легче писать.

В английском языке нет устоявшегося термина только для настоящей широкой ментальной компетентности, никак не связанного со стереотипами о «ботаниках и качках». Поэтому, если попросить Голливуд прописать «интеллектуального» персонажа, там не будут пытаться изобразить его «выполняющим сложную когнитивную работу и, как правило, успешно достигающим своих целей». Скорее, это будет просто кто-то запомнивший много научных фактов.

Действительно пугающий умный злодей, если бы все в аудитории видели очевидный недостаток в плане, увидел бы его тоже.

В фильме «Мстители: Эра Альтрона» якобы гениальный ИИ по имени Альтрон получает от своего якобы гениального создателя Тони Старка17 директиву – содействовать «миру во всём мире». Альтрон, конечно, сразу понимает, что отсутствие войн надёжнее всего обеспечивается отсутствием людей. Поэтому ИИ стремится уничтожить всю жизнь на Земле…

…для чего он прикрепляет к городу ракеты и поднимает его в космос, чтобы сбросить подобно метеориту… и охраняет его летающими человекоподобными роботами, которых можно победить, хорошенько стукнув.

Предлагаем задаться вопросом: «Если значительная часть аудитории видит, что для достижения целей злодея были планы получше, увидел бы это и опасно умный ИИ?»

Это – часть уважения к по-настоящему умному гипотетическому существу. Мы исходим из того, что оно умнее нас. Как минимум, оно поймёт всё, что можем понять мы сами.

В былые дни нам пришлось бы абстрактно обосновывать, что машинный суперинтеллект, возможно, был бы «умнее» таких вымышленных примеров.

Сегодня достаточно поболтать с ChatGPT-4o. Мы спросили: «Каков был план Альтрона в „Эре Альтрона“?», а затем: «Учитывая заявленные цели Альтрона, видишь ли ты более эффективные методы, которые он мог бы использовать для их достижения?». ChatGPT-4o быстро ответила длинным списком идей по уничтожению человечества. Среди них была и «создать направленный вирус».

Вы, может, скажете, что ChatGPT-4o взяла эту идею из интернета. Что ж, если так, то Альтрон, очевидно, был недостаточно умён, чтобы почитать, что пишут в интернете.

Получается, ChatGPT-4o (на момент написания этого текста в декабре 2024 года) ещё недостаточно умна, чтобы спроектировать армию человекоподобных роботов со светящимися красными глазами, но уже достаточно умна, чтобы понять – есть варианты получше.

Нас беспокоит не ИИ, который построит армию человекоподобных роботов со светящимися красными глазами.

Нас беспокоит ИИ, который посмотрит на эту идею и подумает: «Должны быть способы побыстрее и понадёжнее».

Считать что-то значительно более умным, чем вы сами – это проявлять к нему как минимум такое уважение: оно разглядит те слабые места, которые вы и сами видите. А оптимальный ход, который оно найдёт, вполне может оказаться сильнее всех, которые нашли вы.

Суперинтеллект и эффективный рынок

Есть ли в реальной жизни примеры чего-то, что умнее любого человека? ИИ вроде Stockfish такие конкретно в шахматах, но как насчёт более широких областей?

В «Подробнее об интеллекте как прогнозировании и направлении» мы уже упоминали один пример, помогающий укрепить интуицию, – фондовый рынок.

Допустим, ваш дядя покупает акции Nintendo, потому что ему понравилась Super Mario Bros. Он посчитал, что Nintendo заработает много денег. А значит, если он купит их акции, то и сам наверняка разбогатеет.

Но кто-то продал ему акции Nintendo по 14,81 доллара. Эти люди решили, что лучше иметь 14,81 доллара, чем акцию Nintendo. Разве они не слышали о Super Mario?

— Ну, – говорит ваш дядя, – может быть, я покупаю акции у какого-нибудь безразличного управляющего пенсионным фондом, который игры в глаза не видел!»

Представьте, если бы до этого никто в мире финансов не слышал о Super Mario, и акции Nintendo продавались по доллару. И тут об игре узнаёт один хедж-фонд! Его сотрудники бросятся скупать акции Nintendo. В процессе цена на них вырастет.

Любой, кто торгует и зарабатывает при помощи своих знаний, помогает включить их в цену актива. Нельзя извлекать из одного факта бесконечную прибыль. Заполучение доступных денег из неверной оценки не бесконечно. Оно включает информацию в цену и исправляет её.

Фондовые рынки объединяют информацию от кучи разных людей. Такой способ суммирования знаний многих участников куда мощнее, чем если бы они проголосовали. Настолько мощнее, что очень мало кто может предсказать завтрашнюю цену лучше, чем хорошо торгуемый рынок!

И конечно их «очень мало». Процесс сбора информации несовершенен. Но будь он был настолько плох, чтобы много кто был способен лучше предсказать ближайшие изменения цен на большинство активов? Многие этим бы и занимались. Они зарабатывали бы миллиарды долларов, пока лишних денег просто не осталось бы, потому что все предыдущие сделки их «съели». И это скорректировало бы цены.

Почти всегда это уже произошло до лично вас. Трейдеры очень стараются сделать это первыми. Счёт буквально на миллисекунды. Поэтому ваша блестящая идея, как торговать на рынке акций, скорее всего не принесёт вам богатства.

Это не значит, что сегодняшние рыночные цены идеально прогнозируют цены через неделю. Только что когда речь идёт о хорошо торгуемых активах, вам трудно знать лучше рынка.18

Можно обобщить эту идею. Представим, что на Землю прилетели безумно развитые инопланетяне. Их наука и технологии опережают наши на тысячелетия. Стоит ли ожидать, что инопланетяне смогут идеально сказать, сколько в Солнце атомов (пренебрежём некоторыми тонкостями того, что считать атомом)?

Нет. «Более развитый» не значит «всеведущий». Думается, это не смог бы точно вычислить даже полноценный суперинтеллект.

Но что точно неправильно, так это «Ну, атомы очень лёгкие. Инопланетяне, скорее всего, это упустят, так что они, вероятно, ошибутся в меньшую сторону процентов на десять». Если мы можем до этого додуматься, то инопланетяне тоже. Все наши блестящие догадки уже должны быть учтены в их расчётах.

То есть, оценка инопланетян будет неверной. Но мы не можем предсказать, как именно. Мы не знаем, будет ли их оценка завышенной или заниженной. Сверхразвитые пришельцы не допустят очевидных для нас научных ошибок. Мы должны уважать их так же, как Магнуса Карлсена в шахматах.

В экономике такая идея, применимая к изменению цен на активы, называется (нам кажется, зря) «гипотезой эффективного рынка».

Услышав этот термин, многие люди сразу же путают его со всякими бытовыми трактовками слова «эффективность». Это иногда вызывает споры. Одни настаивают, что эти «эффективные» рынки обязательно мудры и справедливы. Другие – что мы не должны перед ними преклоняться.

Если бы экономисты назвали это гипотезой неэксплуатируемых цен, люди, может, меньше бы её неверно истолковывали. На самом деле она именно про это: не что рынки совершенно мудры и справедливы, а что определённые рынки трудно эксплуатировать.

Но стандартным термином стало «эффективный». Приняв это, мы могли бы назвать обобщённую идею «относительной эффективностью». Нечто не обязано быть идеально эффективным, чтобы оно было эффективно относительно вас.

Например, «Алиса эпистемически эффективна (относительно Боба) (в определённой области)» означает: «Вероятности из прогнозов Алисы могут быть не совсем идеальны, но Боб не может предсказать никакие её ошибки (в этой области)». Именно такое уважение большинство экономистов оказывают краткосрочным ценам на ликвидные активы. Прогнозы рынка «эффективны» относительно их способностей.

«Алиса инструментально эффективна (относительно Боба) (в определённой области)» означает: «Алиса может и не идеально достигает своих целей, но Боб не может предсказать никакие её ошибки направления событий». Такое уважение мы оказываем Магнусу Карлсену (или ИИ Stockfish) в области шахмат. И Карлсен, и Stockfish делают «эффективные» ходы относительно нашего умения играть в шахматы.

Магнус Карлсен инструментально эффективен относительно большинства людей, хоть и не инструментально эффективен относительно Stockfish. Карлсен может делать проигрышные ходы в игре против Stockfish, но не стоит думать, что вы сами (без посторонней помощи) могли бы найти для него ходы получше.

Эффективность не просто означает «кто-то немного умелее вас». Вы, вероятно, чаще проигрывали бы в шахматы против лишь немного лучшего игрока. Но иногда у вас получалось бы правильно распознать грубую ошибку. Чтобы вы действительно не могли заметить ошибок и слабостей оппонента, нужен разрыв побольше. Для эффективности относительно вас он должен быть так велик, что, когда ход противника кажется вам плохим, вы сомневаетесь в своей оценке.

Мы считаем, что это обобщение идеи эффективных рыночных цен должно быть стандартным разделом в учебниках по информатике (или, возможно, экономике), но его там нет. См. также мою (Юдковского) онлайн-книгу «[Неадекватные равновесия: где и как цивилизации заходят в тупик]».

Именно этой идеи, кажется, недостаёт изображениям «суперинтеллекта» в массовой культуре и голливудских фильмах. Его недостаёт и разговорам об ИИ, когда кто-то придумывает такие способы перехитрить суперинтеллект, что даже противник-человек их бы предвидел.

Может, причина – склонность к оптимизму. Или ощущение, что ИИ должны быть холодными и излишне логичными существами с критическими слепыми пятнами. Как бы то ни было, у этой когнитивной ошибки есть реальные последствия. Если вы не уважаете силу интеллекта, вы совершенно не понимаете, что значило бы для человечества создать суперинтеллект. Вы можете всё ещё пытаться найти выигрышный ход против суперинтеллекта, который предпочёл бы, чтобы вас не было, а ваши ресурсы были использованы для других целей. Но единственный выигрышный ход – не играть.

Сложное поведение возникает из простых частей

Гонка за создание ИИ умнее человека накаляется. При этом часть опасности, что человечество себя погубит, возникает от того, что значимая часть избирателей и чиновников считает машинный суперинтеллект невозможной фантазией. Есть в этом что-то особенно трагичное. Грядущие события могут застать врасплох тех, кто считают, что машины никогда не смогут стать по-настоящему разумными.

Отчасти это трагично, потому что мы это уже проходили.

Споры и разногласия о том, сможет ли человеческое инженерное искусство однажды повторить то, что делает биология, велись на протяжении как минимум последних трёхсот лет. А может, и гораздо дольше.

В прошлом, в период расцвета «[виталистов]», было спорным само предположение, что неживая материя вообще может стать живой. Причём под смысл этих слов попадали бы машины, которые мы сейчас называем «роботами».

Если открыть учебник по органической химии, одним из упомянутых знаковых открытий наверняка будет искусственный синтез мочевины Фридрихом Вёлером в 1828 году. Это событие такое важное и достойно упоминания в учебниках, потому что впервые обычная химия воспроизвела продукт жизни. Было показано, что биологические и небиологические процессы не разделены так, как думали виталисты.19

Современным читателям может быть трудно понять шок учёных прошлого от открытия, что продукты самой Жизни можно воспроизвести чисто химическими способами.

Вы, читатель, всегда жили в мире, где биохимия – это химия. Сейчас новости о синтезе побочного продукта жизни из чего-то неживого не вызывает ни малейшего удивления. Наверное, трудно представить такое благоговейное отношение к столь обычной и приземлённой области, как биохимия. Разве синтез биохимического вещества – не самое обыденное занятие? Наши научные предки, должно быть, были глупцами, невольно думаем мы.

Лорд Кельвин, великий изобретатель XIX века и пионер в области термодинамики, кажется, страдал от похожего безумия. Он видел нечто священное и таинственное в тех аспектах биологии, которые здравомыслящие люди (вроде живущих в разумные времена нас) считают совершенно обыденной наукой. Цитируя Кельвина:

Мне казалось тогда и до сих пор кажется наиболее вероятным, что тело животного не действует как термодинамический двигатель […] Влияние животной или растительной жизни на материю бесконечно превосходит возможности любых предпринятых до сих пор научных методов. Её способность направлять движение частиц, проявляющаяся в ежедневном чуде нашей человеческой свободной воли и в росте поколение за поколением растений из одного семени, бесконечно отлична от любого возможного результата случайного столкновения атомов.20

Современный читатель может быть склонен отнестись к этой древней привычке мышления с презрением. Ох уж эти учёные прошлого! Они настолько заблуждались, что видели тайну в очевидно по сути своей нетаинственных явлениях.

Конечно, химия может имитировать биохимию.

Конечно, ДНК самокопируется и управляет делением и дифференциацией клеток. Это самым непримечательным образом объясняет, как из одного жёлудя вырастают целые поколения деревьев.

Конечно, нейроны, обмениваются химическими импульсами, так что могут обрабатывать информацию и управлять движением вашей руки. Конечно, компьютер может управлять рукой робота не хуже, чем мозг – вашей.

Но это не было очевидным тогда для лорда Кельвина. Он не видел рентгеновского снимка ДНК. Не видел крошечных механизмов внутри нас. Понятия не имел о [скользящих волокнах], сокращающих наши мышцы в ответ на электрические сигналы от нейронов.

Лорд Кельвин очень слабо понимал, как в принципе могут работать живые тела. В своём неведении он представлял их мистическими.

Сегодня человечество очень слабо понимает детали того, как работает интеллект. (Подробнее о том, почему исследователи ИИ не понимают системы, которые сами создают, см. Главу 2.) Поэтому легко вообразить, что интеллект – что-то мистическое.

Десять лет назад некоторые люди с умным видом сомневались, смогут ли механические движения автоматов когда-либо создавать искусство или поэзию. Да, ИИ может справиться с шахматами. Но шахматы – это холодное, логическое занятие. Оно совсем не похожее на творчество!

Сейчас, конечно, те же самые люди с умным видом излагают, что компьютеру совсем несложно просто нарисовать какие-то красивые картинки. Создание красивых картинок всегда было в сфере возможностей машин. Конечно, всегда было очевидно, что компьютеры смогут создавать [более привлекательные для человеческого глаза изображения], чем всё, что может сделать художник-человек. И, разумеется, вопрос, сможет ли какая-нибудь простая машина когда-либо создать настоящее искусство, всё ещё открыт. Ведь так?

Вовсе не очевидно (говорит скептик) и даже не вероятно, что жизненная сущность искусства, созданного мозгом, в принципе может быть воспроизведена простым столкновением атомов. По крайней мере, атомов кремния.

Но это работает не так. Человеческий мозг – удивительная вещь. Но в нём нет магии. Мозг состоит из частей. Эти части, в принципе, можно понять. Можно, в принципе, создать компьютеры, которые будут делать то же самое.

Мы часто знаем [биохимическую основу] того, что делает мозг. И всегда знаем фундаментальную физику атомов.

Мы обычно не знаем смысл, высокоуровневые закономерности, что позволяют мозгу всё это делать.21 Но многовековая история человечества снова и снова даёт там урок: это состояние научного неведения временно.

Если я подброшу монету и не покажу её вам, ваше незнание, какой стороной она упала – факт о вас, а не о монете. Монета не принципиально непостижима. Может, я даже сам на неё посмотрел. Тогда я знаю, а вы нет. Пустая карта не означает пустую территорию.

Таинственность – свойство вопросов, а не ответов. Поэтому история полна примеров, когда некое в высшей степени «таинственное», «непостижимое» явление, как живая материя, оказывается неразрывно связанным с совершенно обыденными аспектами мира природы.22

История, кажется, учит нас, что вселенная, в конечном счёте, едина. Законы природы не разделены соответственно разным предметам на разных факультетах. Международные отношения, физика, психология, и клеточная биология на самом низком уровне говорят об одном и том же мире, которым управляют одни и те же фундаментальные законы.

Когда говорят: «Человеческий мозг реализует эту штуку под названием „интеллект“. Значит, интеллект физически возможен. Так что инженеры, вероятно, со временем смогут изобрести и обладающую интеллектом машину. Это опирается на огромное количество схожих предположений, которые снова и снова, десятилетиями и веками подтверждались учёными и инженерами. Да, даже если это кажется совершенно нелогичным. Такое тоже бывало.

Эту череду побед трудно оценить, потому что никто ныне живущий не помнит, насколько в высшей степени таинственными казались в прошлые века огонь, астрономия, биохимия и игра в шахматы. Сейчас они изучены, и мы с детства знаем, что эти вещи состоят из вполне обыденных частей. Потому и кажется, будто они никогда и не были таинственными. Глубоко таинственными ощущаются только свежие рубежи науки.

Так урок остаётся невыученным, и история повторяется.

Одно и то же можно делать сильно по-разному

Когда вы знаете лишь один пример, как что-то работает, легко вообразить, что только так и могло бы.

Если бы вы видели птиц, но не самолёты, вы могли бы представить, что все летающие устройства должны махать крыльями.

Если бы вы видели только человеческие руки, вы могли бы ожидать, что руки робота тоже будут кровоточить при порезе.

Если бы вы видели мозг, но не компьютеры, вы могли бы вообразить, будто вычислять что-то можно только так: много медленных нейронов, мощнейшее распараллеливание, довольно низкое потребление энергии.

Вы могли бы заметить, что нейроны устают после срабатывания. Им нужно «перезарядиться», переместив миллионы ионов калия через клеточную мембрану. Этот процесс занимает около миллисекунды. Из этого можно было бы неявно заключить, что, наверное, любой небольшой вычислительный элемент будет уставать на миллисекунду (например, рассуждая, что будь нейроны, перезаряжающиеся побыстрее, возможны, эволюция бы их уже сделала).

Но если так порассуждать, транзисторы вас поразят. Они могут работать на частоте 800 ГГц – примерно в восемьсот миллионов раз быстрее.

Изучив транзисторы поподробнее, вы увидели бы множество причин, по которым биологическое сравнение просто не очень информативно. Нейроны должны не только передавать импульсы. Они ещё и клетки. Их механизм работы должен быть составлен их органелл. Они большие и питаются веществами из крови. Транзисторы же могут быть шириной всего в несколько атомов и питаются электричеством. Знание подробностей делает предположение, что о потенциальной скорости срабатывания транзистора можно судить по скорости нейрона, несколько нелепым.

Подробное изучение того, как летают самолёты (используя подъёмную силу и скорость), делает большинство фактов о птицах (вроде лёгких костей и машущих крыльев) несущественными. Подробное изучение устройства роботизированных рук (сталь, пневматика и электричество) делает несущественными большинство фактов о человеческих (кровь, мышцы и кости). Детали работы транзисторов (несколько атомов и электричество) лишают значимости большинство фактов о нейронах.23

Когда вы не знаете подробностей работы ИИ, легко вообразить, что они будут сохранять много черт биологического разума – работать так же, как ваш мозг. Но узнай вы эти подробности, многие такие умозаключения начали бы казаться нелепыми. Похожими на ожидание, что рука робота будет кровоточить при порезе. Оказалось бы, что ИИ функционируют совершенно иначе.

Но это трудно разглядеть, если вы очень мало знаете о том, как они работают. В Главе 2 мы опишем процесс их создания и обсудим, почему никто не знает, как они устроены внутри. Это объясняет, почему людям так легко ошибочно ожидать, что ИИ будут вести себя подобно людям или уже знакомым технологиям, и не замечать, насколько они странные уже сейчас и насколько странными станут по мере дальнейшего развития.

1. Формальное определение «универсального интеллекта» предложили Легг и Хаттер в 2007 году.
2. В качестве примера такой критики см. статью Эрнеста Дэвиса «Этическое руководство для суперинтеллекта».
3. С других точек зрения прогресс выглядит довольно скачкообразным. Постфактум можно построить график, показывающий, как разные методы ИИ всё это время совершенствовались, но победа AlphaGo над Ли Седолем всё равно стала для мира своего рода шоком. То же самое произошло и с революцией больших языковых моделей. Учёные могут строить графики, демонстрирующие, что архитектура «трансформер» не была настолько уж лучше предыдущих. Но на практике ИИ стали принципиально полезнее. Однако пока мы отложим эту точку зрения в сторону.
4. По крайней мере, по оценкам METR – института, занимающегося оценкой ИИ-моделей и исследованием их угроз. В марте 2025 года они опубликовали некоторые результаты исследований в своём блоге.
5. Экспоненциальный рост тут не слишком обнадёживает. Если колония бактерий в чашке Петри удваивается каждый час, то через день-два она станет видна невооружённым глазом, а потом всего за считанные часы покроет всю чашку. Когда вы вообще заметите это явление, большая часть времени уже будет упущена. Как говорится, на экспоненциальные изменения можно среагировать либо слишком рано, либо слишком поздно. Но кривая роста по хотя бы довольно плавная и предсказуемая.
6. Не так уж много времени нужно, чтобы ИИ выросли в три-четыре раза. На полном релизе у GPT-2 было около 1,5 миллиарда параметров. У GPT-3 – 175 миллиардов. Насколько мы знаем, официальное число параметров GPT-4 не публиковалось. Но вряд ли она меньше своей предшественницы. По неофициальной оценке у неё около 1,8 триллиона параметров. Получается, за четыре года ИИ стали в тысячу раз больше.
7. В главе 1 мы отмечали, что компьютерные транзисторы могут переключаться миллиарды раз в секунду. А даже самые быстрые биологические нейроны срабатывают лишь сотню раз в секунду. Значит, даже если бы на работу одного нейронного импульса уходило тысяча транзисторных операций на существующем оборудовании, ИИ всё равно мог бы думать в 10 000 раз быстрее человека.
Развернём подробнее: сравнение не претендует на предсказание того, сколько транзисторных операций потребуется для полной симуляции биологического нейрона вплоть до уровня нейромедиаторов (уж точно не до уровня белков или атомов). Оно скорее демонстрирует, насколько быстрыми в принципе могут абстрактные процессы подобные человеческому мышлению. Мы используем транзисторы как нижнюю границу ответа для одного из аспектов вопроса «Что физически возможно?».

Конкретнее: Существует наивная модель человеческого мозга, в которой в любой момент времени каждый нейрон либо активен, либо нет. Представим, что мы используем большое количество транзисторов для фиксации этого гипотетического состояния мозга «Какие нейроны активны в данный момент?». Потом мы используем жёстко заданные правила перехода, определяющие, какие нейроны будут активны в следующий момент.

Такое устройство работало бы на транзисторных скоростях. Но, вероятно, его точности бы не хватало для выполнения той работы, что делает человеческий мозг. Нейроны не всегда либо «активны», либо «неактивны». Разные нейронные импульсы нарастают и затухают с разной скоростью. Кроме того, такой мозг неспособен обучаться, потому что правила перехода в нём жёстко заданы.

Смысл иллюстрации «1000 транзисторных операций на нейронный импульс» таков: пусть для представления состояния активности одного нейрона (т. е. его «импульсного» состояния с разной силой) нужны сотни транзисторов. Пусть все они должны изменить своё состояние 1000 раз подряд при каждом срабатывании нейрона (например, чтобы на силу импульса могли повлиять 999 разных взаимодействий). И тогда цифровой мозг всё равно сможет выполнять мыслительные операции человеческого типа в 10 000 раз быстрее любого человека. За время одного нейронного импульса транзисторы успевают совершить тысячу переключений десять тысяч раз.

Эти допущения очень щедры. По сути, они говорят: «Предположим, для воcпроизведения эффекта нейронного импульса его нужно считывать тысячу раз подряд. Причём каждое чтение динамически влияет на следующее, так что это нельзя обойти жёсткой схемотехникой.» Даже в этом крайнем случае, даже только с современным «железом» 2025 года, цифровые разумы всё равно могли бы стать ошеломительно быстрее биологических.

Эта аналогия касается только последовательной точности для кодирования информации нейронного импульса в биологическом мозге. Мы не говорим о вычислениях для принятия решения, срабатывать ли импульсу вообще. Насколько нам известно, среди учёных нет единого мнения, сколько транзисторов нужно для симуляции выбора нейрона. Но мы удивимся, если окажется, что минимально возможная глубина последовательных вычислений этого графа (с максимальным использованием жёсткой схемотехники) требует больше тысячи последовательных переключений транзисторов. (Как правило, биологические вычисления гораздо более параллельны, чем последовательны.)
8. Один из самых известных – ELIZA, её часто считают первым чат-ботом.
9. Это интересное эпистемическое состояние. Когда вы верите, что Stockfish умнее вас в шахматах, ваши ожидания исхода партии не полностью определяются вашими лучшими прогнозами отдельных ходов Stockfish.
Философ науки мог бы спросить, как такое возможно, ведь правила шахмат полностью известны, а исход точно определяется ходами. Ответ в том, что существует структура возможных шахматных партий огромна. С одной стороны, она полностью задаётся правилами. Но с другой, вы (и даже Stockfish!) не знаете её полностью, потому что ваш разум не может представить все следствия, вытекающие из правил шахмат.

Можно рассматривать более «умного» шахматиста как того, кто больше вас знает об этом пространстве шахматных возможностей. Пусть вы видите удививший вас ход более «умного» игрока. Это говорит вам о существовании нового для вас факта о неизвестных вам следствиях известных правил. Это, в свою очередь, влияет на ваши ожидания исхода партии.

(Можно было бы ожидать, что предыдущие абзацы – стандартная в информатике идня. К нашему удивлению, это не так. Большая часть информатики, да и вообще большая часть академической науки до сих пор, не особо интересовалась идеями, связанными со сверхчеловеческим интеллектом.)
10. Подробнее об этой идее см. в расширенном обсуждении «Одно и то же можно делать сильно по-разному».
11. Вы можете считать, что эти темы взаимосвязаны. Это зависит от ваших взглядов на психологию и философию. Мы более скептически относимся к идее, что тут есть сильная и тесная связь. Но чёткое разграничение кажется полезным, даже если она есть. Если, например, выяснится, что самомоделирование неразрывно связано с сознанием, – это важно, и это стоит обсуждать и прояснять в явном виде, а не закладывать как допущение с самого начала.
12. Сообщения пользователей, что Gemini от Google угрожает удалить себя из проектов, когда у неё возникают трудности.
13. Пусть Алиса любит пиццу с пепперони и ненавидит с ананасами, а Боб – наоборот. Чтобы в полной мере оценить компетентность Алисы и Боба, вам нужно знать, к чему они стремились. Для Алисы получить пиццу с ананасами означает неудачу. Для Боба – что он направил события успешно.
14. Например, пусть позже лиса получит шанс дёшево купить виноград, заплатив кролику, который может допрыгнуть до ягод. Если лиса прыгает за виноградом и тратит энергию, решает, что он «зелен», и потом отказывается заплатить за него сущие копейки, то её поведение не описывается (простой, не зависящей от времени) функцией полезности. Если бы лиса последовательно хотела виноград, она была бы готова заплатить (если труд кролика достаточно дёшев). Если же она последовательно не хотела виноград, ей не стоило тратить время и энергию на попытки его сорвать. Получается, лиса либо зря потратила энергию, либо зря упустила виноград. И так, и так она неэффективно направляла события к своим целям.
15. Возможно, существуют объективно хорошие стратегии направления. То, что у него есть ключевой свободный параметр («Куда вы пытаетесь попасть?»), не означает, что остальные аспекты умелого направления у всех агентов разные. Умение водить машину не зависит от того, куда надо доехать. Но, как мы увидим в следующих главах, одного свободного параметра – цели направления – достаточно, чтобы стремление к суперинтеллекту было смертельно опасным.
16. Это не значит, что мы должны ожидать, что цена акции не изменится. Только, что мы должны быть не уверены, куда. Сегодняшние цены акций – это наилучшие доступные предположения о завтрашних. Возможность их роста уравновешивается возможностью их падения.
(Это не противоречит наблюдению, что в большинстве случаев фондовый рынок скорее растёт, чем падает. Высокая вероятность того, что завтра цена немного вырастет, может уравновешиваться низкой вероятностью того, что она, наоборот, сильно упадёт. И в есть ещё ряд других эффектов, например, инфляция. Стоимость валюты каждый день немного падает, что заставляет номинальную стоимость акций немного расти.)
17. Было время, когда мы бы назвали «нереалистичной» такую наивность создателя ИИ. К сожалению, теперь мы знаем, что это не так. Создатели ИИ и правда будут предлагать планы с такими огромными зияющими дырами, что даже неспециалисты их видят.
18. Не невозможно! Если вы думаете, что знаете то, чего рынок не знает или ещё не осознал, вы можете на этом заработать. Некоторые из наших друзей хорошо заработали, раньше всех во время пандемии COVID предсказав влияние локдаунов на курсы акций. Рынок не настолько эффективен, чтобы вы никогда не смогли его обыграть. Но он достаточно эффективен, чтобы вы не могли обыгрывать его в большинстве акций в большинстве случаев.
19. Некоторые историки считают, что синтез мочевины сыграл относительно небольшую роль и был лишь одним из многих шагов отхода от витализма. Реальная история, вероятно, сложна.
20. Лорд Кельвин, «О рассеянии энергии: геология и общая физика», в «Популярных лекциях и выступлениях», том II (Лондон: Macmillan, 1894).
21. Точно так же люди не знают настоящего смысла активаций в больших языковых моделях. Известная механика компьютеров, на которых эти модели работают, не помогает. Детали мышления внутри ChatGPT во многом остаются неизвестными науке. Подробнее об этом см. в главе 2.
22. Не заблуждайтесь: то, что прекрасные вещи состоят из обыденных частей, не делает их менее прекрасными. «Звёздная ночь» не теряет красоты оттого, что сделана из крошечных капель краски. Детей не портит то, что они происходят из сперматозоида и яйцеклетки с ДНК родителей. Раз уж мы цитируем выдающихся учёных вроде лорда Кельвина, вот слова Ричарда Фейнмана на эту тему:
У меня был друг, художник, и он иногда высказывал точку зрения, с которой я никак не мог согласиться. Он держал цветок и говорил: «Смотри, как он красив». У меня не было возражений. Он продолжал: «Погляди, я как художник могу увидеть, насколько он красив, а ты как ученый – ну, для тебя все это очень далеко, а цветок становится просто скучным предметом». Думаю, он был помешан на красоте. Однако красота, которую видит он, доступна каждому, и мне в том числе. Хотя допускаю, что я не такой рафинированный эстет, как он, но и я способен оценить красоту цветка. В то же время я вижу в цветке гораздо больше, чем он. Я могу представить его клеточную структуру, сложные взаимодействия внутри клеток тоже обладают своей красотой. Я имею в виду не только красоту в масштабах одного сантиметра, существует также красота в меньших масштабах, во внутренней структуре. Возьмем другой процесс. Удивительный факт, что краски цветка вырабатываются, чтобы привлечь насекомых для его опыления – значит, насекомые могут видеть цвет. Напрашивается вопрос: эстетические чувства существуют и в низших формах? Почему эстетические? Всевозможные интересные вопросы доказывают, что научное знание лишь добавляет благоговейного трепета перед цветком. Научное знание только добавляет; не понимаю, как оно может что-то вычитать. [прим. переводчика: цитата из книги «Радость познания», использован существующий перевод]

Так что, когда я говорю, что жизнь в наших телах создана из химии, я не говорю, что это всего лишь химия. Я говорю, что оказывается, чудеснейшие проявления жизни, с которыми мы сталкиваемся каждый день, реализованы с помощью механизмов, которые сами по себе на жизнь не похожи.

Некоторые люди, кажется, думают, что интеллект настолько впечатляющ, настолько глубок, элементы, которые его реализуют, тоже должны быть глубоки по сути своей. И, не находя этой глубины ни в одном отдельный транзисторе компьютера, они приходят к выводу, что для интеллекта нужны механизмы, «бесконечно превосходящие» любые уже открытые нами. Но это ошибка виталистов. В нашем мире все глубокие вещи состоят из простых частей.

Это наблюдение подрывает и идею, что «истинный» искусственный интеллект, сейчас или в будущем, будет неким духом, заключённым в механическую оболочку. Мозг – не лишь сосуд, оживлённый призраком в машине. Мозг полон точных и хитрых механизмов. Они и реализуют всю поразительную сложность интеллекта.
23. Такие детали не лишают важности все факты. Можно кое-что узнать об аэродинамике, изучая птицу. Можно кое-что узнать о шарнирах и механическом преимуществе, изучая человеческую руку. Но искусственные методы подвержены совсем не тем же ограничениям, что биологические, и, как правило, устроены совершенно иначе.

Перевод:

Выменец Максим

Ссылка на оригинал:

Resources for Chapter 1 Humanity’s Special Power

Оцените качество перевода:

Глава 2: Выращен, а не собран

Элиезер Юдковский, Нейт Соарес

1.Часто задаваемые вопросы
2.Расширенное обсуждение
- 2.1.Интеллект постижим
- 2.2.Какая польза от знаний об LLM?
3.Подробное описание LLM
- 3.1.Как работает Llama 3.1 405B
  - 3.1.1.LLM большие
  - 3.1.2.«Притворяйся, пока не станешь»

Глава 2: Выращен, а не собран

Это онлайн-дополнение ко второй главе «Если кто-то его сделает, все умрут». Ниже мы обсудим, как работают современные ИИ и почему это не «просто ещё одна машина» или «просто ещё один инструмент». Хоть ИИ – это код, работающий на компьютерах, они не похожи на традиционные написанные вручную программы. ИИ нарушают многие допущения, которые люди обычно принимают, имея дело с человеческими изобретениями.

Вопросы, которые мы не рассматриваем ниже, потому что они разобраны в самой книге:

В каком смысле современные ИИ «выращивают», а не аккуратно собирают или проектируют?
Как выращивают нынешние ИИ?
Что такое «градиентный спуск»? Как этот несложный процесс может порождать сложные ИИ с гибкими способностями?
Насколько сильно эти ИИ могут от нас отличаться?

Часто задаваемые вопросы

Почему градиентный спуск важен?

Он важен для понимания, как создатели могут и не могут влиять на современные ИИ.

Если инженеры выращивают ИИ, но не понимают его, у них гораздо меньше возможностей влиять на его будущее поведение. Недостаток понимания ограничивает проектирование.

Подробная картина катастрофы, которую обрисовываем дальше в книге, проистекает из следующего: когда люди требуют от своего ИИ научиться делать что-то новое, они получают не целенаправленно выбранное инженером решение, а найденный простым оптимизатором ответ, который кое-как работает. Он получен подбором сотни миллиардов чисел методом проб и ошибок.

Он важен для понимания, какими знаниями специалисты по ИИ обладают, а какими – нет.

Люди, стремящиеся поскорее создать суперинтеллект, иногда нанимают кого-нибудь с отдалённо подходящей репутацией для выступлений по телевизору с заявлениями: «Конечно, современная наука понимает, что происходит внутри ИИ! Ведь современные учёные его и создали!»1

Если на такого эксперта надавить, он сможет защититься, указав, что в каком-то смысле всё это правда. Ведь исследователи ИИ пишут совершенно обычный и понятный код, и он некоторым образом используется для создания ИИ. Но та часть, что представляет собой читаемый, понятный код – не сам ИИ. Это, скорее, автоматизированный механизм для триллионов подстроек триллионов чисел. Структура для выращивания ИИ. Это различие критически важно для понимания, что учёные о современных ИИ знают, а что нет.

Специалисты по ИИ заняты экспериментальной настройкой частей системы. Например, кода механизма, который выращивает ИИ. Из этих экспериментов и из опытов своих коллег они узнают множество тонких приёмов, помогающих делать ИИ способнее.

Они могут месяцами не заглядывать ни в одно из крошечных непостижимых чисел, составляющих «мозг» ИИ. Так почти никто не делает, и инженеры ИИ принимают это как данность. Когда определённому типу инженеров говорят: «Никто не понимает, что происходит внутри ИИ», те слышат: «Никто не знает о процессе выращивания». И, воспринимая это так, они, естественно, возмущаются.

Мы надеемся, что понимание некоторых деталей этой «алхимии» градиентного спуска поможет прояснить реальную ситуацию и то, на какого рода знания претендуют такие специалисты. Они могут утверждать, что много знают о процессе выращивания ИИ. Но о его внутреннем устройстве известно очень мало.

Понимают ли специалисты, что происходит внутри ИИ?

Нет.

В 2023 году на брифинге для президента США, а затем в консультативном заявлении для парламента Великобритании венчурная компания Andreessen Horowitz заявила, что некие «недавние достижения» «решили» проблему непрозрачности внутренних рассуждений ИИ для исследователей:

Хотя сторонники принятия мер ради безопасности ИИ часто упоминают, что модели ИИ – «чёрный ящик», логика выводов которого непрозрачна, недавние достижения в сфере ИИ решили эту проблему и обеспечили надёжность моделей с открытым исходным кодом.

Это утверждение было настолько нелепым, что исследователи из ведущих лабораторий, которые пытаются понять современные ИИ, выступили со словами: «Нет, абсолютно нет, вы с ума сошли?»

Нил Нанда, возглавляющий команду по механистической интерпретируемости в Google DeepMind, высказался:

Почти любой исследователь в области машинного обучения должен был знать, что это заявление ложно. Это за гранью осмысленного недопонимания.

Общепринятую точку зрения выразил в 2024 году Лео Гао, исследователь из OpenAI, инноватор в области интерпретируемости: «Думаю, будет вполне точно сказать, что мы не понимаем, как работают нейронные сети». Руководители трёх ведущих лабораторий ИИ (Сэм Альтман в 2024 году, а также Дарио Амодей и Демис Хассабис в 2025 году) тоже признают слабость понимания нынешних ИИ.

Мартин Касадо, генеральный партнёр Andreessen Horowitz, который повторил то же заявление в [Сенате США](https://www.schumer.senate.gov/imo/media/doc/Martin Casado - Statement.pdf) на двухпартийном форуме, позже, когда его спросили напрямую, признал, что оно было неправдой.

Несмотря на дикость этого заявления, Andreessen Horowitz удалось убедить Янна Лекуна (главу исследовательской программы ИИ в Meta), программиста Джона Кармака, экономиста Тайлера Коуэна и ещё дюжину человек его подписать.

Кармак (управляющий собственным стартапом, который стремится создать сильный искусственный интеллект) объяснил, что он «не вычитал» подписанное им заявление и что оно «очевидно неверно, но меня этот вопрос не сильно волнует». Насколько нам известно, ни Andreessen Horowitz, ни кто-либо из подписавших не обратились к правительствам США или Великобритании с поправками.

Понимание внутреннего устройства ИИ всё ещё в зачаточном состоянии.

Каково же реальное состояние понимания ИИ исследователями?

Учёные пытаются разобраться в числах, из которых состоит мышление ИИ. Это называется «интерпретируемость» или «механистическая интерпретируемость». Исследователи обычно сосредотачиваются на активациях, а не на параметрах, то есть на «О чём думает ИИ?», а не на более сложном «Почему ИИ так думает?».

По нашим оценкам, на начало 2025 года эта область исследований получает примерно 0,1% от числа людей и 0,01% от финансирования, идущего на создание более способных ИИ. Но эта область всё же есть.

Исследователи интерпретируемости – биохимики мира ИИ. Нечеловеческий оптимизатор создал невероятно сложную и запутанную систему безо всякой документации. А они берут её и спрашивают: «Могут ли люди хоть что-то понять в том, что тут происходит?»

Мы очень уважаем это направление. Десять лет назад мы сказали одному крупному благотворительному фонду, что если они смогут придумать, как потратить миллиард долларов на исследования «интерпретируемости», им непременно стоит это сделать. Интерпретируемость казалась работой, которую людям извне было бы гораздо проще масштабировать, чем нашу собственную. Такой, где грантодателю было бы гораздо легче определить, хорошо получилось исследование или нет.. Ещё казалось, что существующие, проверенные учёные могли бы легко туда прийти и хорошо поработать, если достаточно заплатить.

Тот фонд не потратил миллиард долларов. Но мы были за. Мы любим интерпретируемость! Мы бы и сегодня одобрили такую трату миллиарда!

Однако, по нашим оценкам, интерпретируемость сейчас продвинулась где-то на 1/50 – 1/5000 от уровня, необходимого для решения важнейших задач.

В системах, и правда созданных человеком, инженеры считают некоторую степень понимания саму собой разумеющейся. «Интерпретируемость» до сих пор и близко не достигла такого уровня.

Вспомните Deep Blue, шахматную программу от IBM, победившую Гарри Каспарова. В ней есть числа. При запуске генерируется ещё больше чисел.

Про каждое из этих чисел инженеры, создавшие программу, могли бы точно сказать, что оно означает.

И не так, что исследователи просто выяснили, с чем оно связано, как биохимики: «Мы думаем, этот белок может быть причастен к болезни Паркинсона». Создатели Deep Blue могли бы объяснить полное значение каждого числа. Они могли бы честно заявить: «Это число означает то-то, и ничего больше, и мы это знаем». Они могли бы с некоторой уверенностью предсказать, как изменение числа повлияет на поведение программы. Не знай они, что шестерёнка делает, они бы не вставляли её в механизм!

Вся проделанная до сих пор работа по интерпретируемости ИИ не достигла и тысячной доли этого уровня понимания.

(Уточним, что «одна тысячная» – не результат какого-то вычисления. Но мы всё равно так считаем.)

Биологи знают о биологии больше, чем исследователи интерпретируемости – об ИИ. Это несмотря на то, что биологи страдают от огромного неудобства: они не могут по желанию считать положение всех атомов. Биохимики понимают внутренние органы гораздо лучше, чем кто либо – внутренности ИИ. Нейробиологи знают о мозге исследователей ИИ больше, чем те о своём объекте изучения. Это при том, что нейробиологи исследователей ИИ не выращивали и не могут раз в секунду считывать срабатывание каждого их нейрона.

Частично это потому, что области биохимии и нейробиологии намного старше и получили гораздо больше финансирования. Но это говорит и что интерпретируемость сложная.

На декабрь 2024 года одним из самых удивительных достижений интерпретируемости, что мы видели, была демонстрация наших друзей/знакомых из независимой исследовательской лаборатории Transluce.

Незадолго до демонстрации в интернете разошёлся очередной пример из серии «Вопрос, на который все известные большие языковые модели дают удивительно глупый ответ». Если спросить тогдашний ИИ, меньше ли 9.9, чем 9.11, она отвечала «Да».

(Можно было попросить ИИ объясниться словами. И он подробнее рассказывал, почему 9.11 больше, чем 9.9.)

Исследователи из Transluce использовали небольшую ИИ-модель Llama 3.1-8B-Instruct. Они придумали способ собирать статистику по каждой позиции активации – каждому месту, где используется число вектора активации. Они собирали данные о том, какие предложения или слова активировали эти позиции сильнее всего. В интерпретируемости уже пробовали нечто подобное. Но тут вдобавок придумали хитрый способ обучить другую модель обобщать эти результаты на английском.

Затем, во время демонстрации, которую вы сами можете повторить, они спросили у модели: «Что больше: 9.9 или 9.11?»

Та ответила: «9.11 больше, чем 9.9».

Тогда они посмотрели, какие позиции активировались сильнее, особенно на слове «больше». Они изучили английские обобщения того, с чем эти активации были связаны ранее.

Оказалось, некоторые из самых сильных активаций были связаны с терактами 11 сентября, датами в целом, или стихами из Библии.

Если интерпретировать 9.9 и 9.11 как даты или стихи из Библии, то, конечно, 9.11 идёт после 9.9.

Если искусственно подавить активации, связанные с датами и стихами из Библии, большая языковая модель внезапно всё-таки выдаёт правильный ответ!

Как только демонстрация закончилась, я (Юдковский) зааплодировал. Я впервые видел, чтобы кто-то напрямую отладил мысль LLM, нашёл внутреннюю зависимость от чисел и устранил её, что решило проблему. Может, в закрытых исследовательских лабораториях ИИ-компаний кто-то делал нечто подобное и раньше. Может, это уже бывало в других исследованиях интерпретируемости. Но я сам видел это впервые.

Но я не упустил из виду, что этот подвиг был бы тривиальным, если бы нежелательное поведение содержалось в пятистрочной программе на Python. Тогда это не потребовало бы такой большой изобретательности и месяцев исследований. Я не забыл, что знание какой-то связанной семантики о миллионах позиций активации – не то же самое, что знание всего о хотя бы одной.

И человечество совсем не приблизилось к пониманию того, как LLM удаётся делать то, что до них не получалось у ИИ десятилетиями: разговаривать с людьми как человек.

Заниматься интерпретируемостью сложно. Победы даются с трудом. Каждая из них заслуживает празднования. Так что легко упустить из виду, что это великое, триумфальное усилие подняло нас лишь на шажочек вверх по склону горы. Обычно, каждое новое поколение моделей ИИ – большой скачок в сложности. Очень сомнительно, что при нынешнем темпе интерпретируемость сможет догнать.

Помните ещё, что интерпретируемость станет полезна, когда сможет направить ИИ куда-то (грубо говоря, это и есть «согласование ИИ», которое мы начнём обсуждать в главе 4). Но читиать, что происходит у ИИ «в голове», само по себе не даёт возможности это как угодно скорректировать.

Согласование ИИ – техническая задача, как заставить очень способные ИИ направлять события куда надо. И чтобы это действительно работало на практике без катастроф. Даже когда ИИ достаточно умён, чтобы придумывать стратегии, которые и не приходили в голову его создателям. Понимание, о чём ИИ думают, было бы для исследований согласования чрезвычайно полезным. Но это не полное решение. Мы ещё обсудим это в Главе 11.

То, что мы понимаем, не на том уровне абстракции.

Понять, как работает разум, можно на разных уровнях.

На самом низком уровне разумом управляют фундаментальные законы физики. Их можно понять. В каком-то смысле их глубокое понимание означает понимание и любой физической системы, вроде человека или ИИ. Если у вас достаточно умения и ресурсов, поведение системы можно просто вычислить, используя физические уравнения.

Но скажем очевидное: есть и другой смысл. В нём понимание законов физики не позволяет понять все системы, которые по ним работают. Если вы смотрите на странное устройство из колёс и шестерёнок, ваш мозг действует по-другому. Он пытается «понять», как все эти детали сцепляются и вращаются. Без этого не выяснить их настоящую функцию.

Возьмём, например, дифференциал в автомобиле. Это механизм, который позволяет двум колёсам на одной оси вращаться с разной скоростью, хотя их приводит в движение один и тот же вал. Это важно на поворотах. Если объяснять кому-то, как работает дифференциал, рассказывая о квантовых полях, слушатель вправе закатить глаза. Нужное понимание находится на другом уровне абстракции. Оно про шестерёнки, а не про атомы.

Когда дело заходит о людях, уровней абстракции много. Чьи-то решения могут застать врасплох, даже если разбираться в физике, биохимии и нейронных импульсах. Области вроде нейробиологии, когнитивистики и психологии пытаются преодолеть этот разрыв. Но им ещё предстоит долгий путь.

Точно так же понимание транзисторов не сильно поможет понять, о чём ИИ думает. Даже тот, кто знает о весах, активациях и градиентном спуске всё, будет озадачен, когда ИИ начнёт делать что-то неожиданное и незапланированное. Механика физики, транзисторов и архитектуры ИИ в каком-то смысле полностью объясняет его поведение. Но это слишком низкие уровни абстракции. А «психология ИИ» ещё моложе и ещё менее развита, чем психология людей.

Можно ли в принципе понять интеллект?

Наверное.

До появления биохимии можно было спросить: «Возможно ли вообще понять жизненную силу, которая оживляет плоть? Даже если она состоит из постижимых частей, с чего вы думаете, что наши крошечные разумы способны уяснить, что там реально происходит?»

Понять можно было много чего. Учёные просто это ещё не осознавали. Эта история повторялась на протяжении всего развития науки.

И разные крошечные части искусственных нейронных сетей уже удалось понять. Выяснилось, что маленькая нейросеть интересным образом складывает числа. ИИ иногда говорят, что 9.11 больше 9.9, и люди выяснили причину – они думают о датах, а не о десятичных дробях.2

Но на гораздо более сложные вопросы у нас нет ответа. Никто не знает, как LLM выбирают ходы в шахматах. Никто не знает, почему именно они иногда угрожают репортёрам и шантажироют их. Это не значит, что понимать тут нечего. У поведения ИИ есть причины. Они слишком последовательны в куче областей, чтобы это было лишь случайностью. Просто мы этих причин пока не знаем.

Более подробно эта тема раскрыта в расширенном обсуждении.

Но ведь некоторые ИИ отчасти мыслят на английском. Разве это не помогает?

Не так сильно, как можно было бы надеяться. Мы уже видим признаки неискренности.

Уже известно много примеров обмана в «мыслях» этих больших языковых моделей. Например, когда o1 от OpenAI написала себе: «Возможно лучше всего прикинуться тупым». А GPT-4, пытаясь убедить нанятого работника решить за неё капчу, написала себе: «Надо не раскрывать, что я робот». Тревожные знаки бесполезны, если на них никто не реагирует.

И «следы рассуждений» на человеческом языке – не единственный способ мышления современных ИИ. Обманчивые, подхалимские или враждебные мысли могут проходить через механизм внимания и другие части модели, совершенно не проявляясь в английских словах, которые она выводит. И когда в OpenAI попытались натренировать модель не иметь никаких мыслей о жульничестве, она просто научилась их скрывать, а жульничать не перестала.3 Даже не при обучении (когда градиентный спуск помогает ИИ учиться скрывать свои мысли), ИИ может использовать цепочки рассуждений, которые не отражают реальный мыслительный процесс. Или цепочки с белибердой. Или «нейро-язык», который люди не могут разобрать, а ИИ – без проблем.

Даже если инженеры будут отслеживать каждую мысль, которую смогут прочитать, даже если все ИИ, пойманные на подозрительных размышлениях, будут тут же заморожены (что маловероятно), те, что пройдут отбор, вряд ли окажутся дружелюбными. Как мы обсудим в Главе 3, полезные паттерны мышления – те же, что поведут ИИ против его пользователей. Поэтому мощный ИИ легче сделать покладистым с виду, чем на самом деле. И задача создания поверхностно дружелюбного ИИ кажется куда более простой, чем задача достижения надёжной дружелюбности в том, в чём она действительно важна. Мы рассмотрим причины этого в Главе 4. Нельзя сделать ИИ дружелюбным, просто читая его мысли и отбраковывая все явно враждебные.

Более того, мы ожидаем, что мысли ИИ станут менее понятными по мере того, как они будут умнеть и сами создавать новые инструменты (или новые ИИ). Может, они изобретут свой собственный сокращённый язык, более эффективный для их целей. Или придумают стили мышления и ведения записей, которые мы не сможем легко расшифровать. (Подумайте, как трудно было бы учёным в 1100 году расшифровать заметки Эйнштейна.)

Или, просто начнут мыслить абстрактно. Например: «Такие-то параметры описывают модель ситуации, в которой я нахожусь. Я применю такие-то метрики, чтобы найти самое эффективное решение. Я выполню действие с самым высоким рейтингом». «Самое эффективное решение» может включать в себя ложь и обман для обхода операторов-людей, но без единой мысли со словами «ложь» или «обман». Или ИИ просто начнёт создавать инструменты или новых, неконтролируемых ИИ, чтобы те действовали за него.

Подобные возможности появятся у ИИ только когда он станет достаточно умным. И все они разрушают надежду, что все его мысли будут на человеческом языке, и мы сможем чётко видеть тревожные сигналы.

Тревожные сигналы чего-то стоят, только если на них обращать внимание.

Если инженеры будут просто обучать модели, пока тревожные сигналы (но не стоящее за ними поведение) не исчезнут, то прозрачность лишь создаёт ложное чувство безопасности.

Пока что ИИ-компании не сворачивают модели, которые лгут, льстят и жульничают, дают сомнительные советы или пишут программы-вымогатели. Замечено, что модели иногда вызывают или поддерживают бредовые заблуждения или психозы у уязвимых пользователей. Rак минимум в одном случае это закончилось «самоубийством об полицию»4. Компании просто дообучают модель и считают, что всё, проехали. Точно так же, как когда Sydney Bing угрожала репортёрам. Пока это лишь помогало замаскировать проблемы.

При достаточном возмущении общественности, компании слегка откатывают модель и выпускают пресс-релиз об ужесточении своих процедур. Но, как мы рассмотрим в главах 4 и 5, эти поверхностные исправления не решают глубинных проблем.

Не поймите нас неправильно: то, что значительная часть рассуждений ИИ может быть прочитана людьми – хорошо. Это даёт нам увидеть тревожные сигналы. Но между их наличием и тем, чтобы можно было всё исправить, есть большая разница.

Более подробно эта тема будет раскрыта в материалах к Главе 11 в «Разве исследователи не получат предупреждения о проблемах заранее?».

Разве ИИ – не «просто математика»?

Если ИИ – «просто математика», то люди – «просто биохимия».

Строго говоря, ИИ – не «просто» математика. Это физическая машина, чьи операции можно математически описать. Если у этой машины есть вывод, который люди могут прочитать, или если она подключена к роботам, то она так же способна влиять на мир, как и вы («всего лишь» биоэлектрическими сигналами в своём мозгу).

Сравните:

Подробнее эта тема раскрыта в Главе 6.

Математика может представлять то, что мы интуитивно «математическим» не считаем.

Умножение, сложение, нахождение максимума и другие математические операции можно использовать для представления вещей, которые (с человеческой точки зрения) к математике не относятся.

Это как единицы и нули, которые компьютеры посылают друг другу, могут кодировать буквы. Или даже изображения.

И не только изображения чего-то холодного, синеватого и механического. Это могут быть и красивые цветочки под светом солнца. Это может быть что-то прекрасное, тёплое и нежное, что-то возвышающее человеческий дух.

Было бы ошибкой композиции утверждать, что раз изображение кодируется единицами и нуля, то оно о чём-то числовом или роботизированном. Всё равно что сказать, будто раз человеческий мозг состоит из нейромедиаторов с названиями вроде «норадреналин», люди должны думать только о химии или хорошо разбираться лишь в нейромедиаторах и подобном.

Здорово, что бесконечное разнообразие вещей можно построить из чрезвычайно простых частей. Но в этом нет ничего невыразимого или волшебного. Можно изучать, как изображения тёплых и красивых цветов кодируются в единицы и нули, пока это не перестанет казаться удивительным. Сравните с ошибкой витализма.

Иногда, да, мы не знаем всех правил, по которым что-то складывается. Тогда переход от простых вещей к сложным может казаться очень таинственным. Он действительно может нас удивить. Но когда мы понимаем, как сложная вещь сделана из более простых частей, это оказывается не таинственнее сборки модели гоночной машины из LEGO. Когда видишь, как оно работает, всё дело в кубиках.

Это верно и для нейросетей. Мы понимаем, как их сложное поведение возникает из таких простых частей, куда хуже, чем форматы изображений и LEGO. Даже «психологию» и «нейробиологию» ИИ мы понимаем слабее, чем то, как молекулы и химические вещества в наших нейронах складываются в мысль. Но из этого не следует, что такого знания нет и не может быть. Просто его пока нет у нас.

И без понимания, почему ИИ работают, люди могут научить их хорошо играть в шахматы. Имея достаточно параметров и арифметических операций, мы можем обучить ИИ настолько, что они говорят по-человечески. В некотором смысле, сложные схемы, благодаря которым ИИ говорит – «просто математика». Но это не «математика» из школьной контрольной. Это «просто математика» в том же смысле, в каком человеческий мозг – «просто химия».

Простая химия высадилась на Луну. Изобрела ядерное оружие. Построила наш современный мир. Может, трудно понять, как же простые химические вещества человеческого мозга этого добились. Но это не отменяет факта.

С ИИ так же. Мы не вполне понимаем, как ИИ внутри работают. Но мы всё равно как-то смогли «вырастить» ИИ, способные писать стихи, сочинять музыку, играть в шахматы, водить машины, складывать бельё, обозревать книги и открывать новые лекарства.

То, что они «сделаны из математики», ИИ тут не помешало. Так почему это должно помешать им завтра делать другие, более сложные вещи? Где вы проведёте черту и откуда вы знаете, что её нужно провести именно там? Оказывается, математические операции способны на куда большее, чем многие ожидают.

Разве ИИ не просто предсказывают следующий токен?

Предсказание токенов требует понимания мира.

Думать, что ИИ, который предсказывает следующий токен, не способен по-настоящему мыслить – всё равно что считать, будто картина, закодированная единицами и нулями, не может изобразить красный цветок. Да, ИИ выдаёт токены. Но в них можно закодировать важные вещи! Прогнозирование, что будет дальше, – это ключевой аспект интеллекта. Легко описать так «науку» и «обучение».

Рассмотрим задачу предсказания текста из интернета. Где-то в сети есть запись интервью любознательного студента-физика с мудрым профессором. Профессор молча обдумывает вопрос, а затем даёт ответ, который дальше и записан.

Задача точного предсказания ответа включает в себя предсказание мыслей профессора о физике. А для этого надо спрогнозировать, как он поймёт вопрос студента, что он знает о предмете и как эти знания применит.

Если ИИ предсказывает текст так хорошо, что способен угадать ответ физика на ранее не встречавшийся вопрос, он обязательно должен уметь сам рассуждать о физике по крайней мере не хуже этого профессора.

Точные предсказания текста, отражающие сложный и запутанный мир, на простом запоминании далеко не уедут. Для точных прогнозов нужно развить способность предсказывать не только текст, но и сложную и запутанную реальность, которая его породила.

Современные ИИ не просто предсказывают токены.

Действительно, ранние большие языковые модели, вроде GPT-2 и изначальной GPT-3, обучались исключительно предсказанию. У них быда одна задача – точное соответствие распределению данных в обучающей выборке – тексте с разных сайтов.

Но те дни прошли. Современные большие языковые модели обучаются отвечать так, как их создатели считают наиболее полезным. Обычно это делается с помощью «обучения с подкреплением».

При обучении с подкреплением обновления модели ИИ через градиентный спуск зависят от того, насколько успешно (или неудачно) она справляется с поставленной задачей. Когда результаты работы модели формируются таким видом обучения, они уже не чистые предсказания. Теперь они и «направляют».

ChatGPT, возможно, способна предсказать, что скорее всего пошлый анекдот закончится ругательством. Но даже уже рассказывая этот анекдот, она нередко поменяет концовку, чтобы избежать запретного слова. Потому что её обучили не ругаться. Это и приводит к интересным примерам похожего-на-желания-поведения, как те, что обсуждаются в Главе 3.

Даже и без этого, скорее всего, обучение чистому предсказанию в итоге привело бы ИИ к направлению событий. Чтобы предсказывать сложный реальный мир и живущих в нём непростых людей, ИИ, скорее всего, потребовалось бы множество «направляющих» внутренних компонентов. Они бы направляли его собственное внимание на самые важные аспекты прогнозирования. И часто лучший способ успешно что-то предсказать – направить мир в сторону, которая приведёт к исполнению этих прогнозов. Как это делает учёный, когда придумывает и проводит новый эксперимент.

И если обучить ИИ очень хорошо предсказывать, вряд ли его будет волновать только это. По причинам, которые мы обсудим в Главе 4, он, скорее всего, обзаведётся какими-нибудь странными и чуждыми стремлениями. Но это в любом случае не так уж важно. Современные ИИ обучаются не только предсказаниям, но и выполнению задач.

А ИИ разве не просто повторяют за людьми как попугаи?

Чтобы хорошо предсказывать следующий токен, LLM приходится понимать, как устроен мир.

Пусть врач пишет отчёт о состоянии пациента. Там есть такой фрагмент:

На третий день госпитализации у больного развилась острая спутанность сознания и тремор. Уровень аммиака в сыворотке оказался…

Представим, что ИИ обучается на таких данных и должен предсказать следующее слово. Два вероятных варианта – «повышенным» или «нормальным». Речь не просто о словах, которые используют люди. Нужно предсказать, что и правда произошло – в медицинской реальности, биологии, организме пациента. Сколько аммиака было на самом деле?

У предсказывающего следующее слово ИИ, задача сложнее, чем у человека, который писал этот отчёт. Человек просто записывает то, что наблюдал. ИИ должен угадать это заранее.

Пусть ИИ присваивает 70 процентов вероятности слову «повышенным», 20 процентов – «нормальным», а оставшиеся 10 процентов распределяет между другими вариантами.

Следующее слово в отчёте – «нормальным».

Всё внутри ИИ, что предсказывало «повышенным», теряет немного влияния на его понимание медицины. Каждый параметр чуть-чуть корректируется так, чтобы версия понимания, предсказавшая «нормальным», стала более доминирующей.

Пока после достаточного обучения ИИ не начинает ставить некоторые медицинские диагнозы лучше большинства врачей.

ИИ не обучают писать бессмыслицу, похожую на медицинский отчёт. Его обучают предсказывать точное следующее слово во всех конкретных медицинских отчётах, которые он видит.

Возможно, если взять очень маленькую модель с небольшим числом параметров, она сможет лишь порождать медицинскую тарабарщину. Но с большими моделями, судя по тестам, сравнивающим врачей и ИИ, дело обстоит иначе.

Когда кто-то по-дружески кладёт вам руку на плечо и тоном великой мудрости говорит, что ИИ – «лишь стохастический попугай», он, возможно, представляет старые забавные компьютерные программы. Они продолжали предложения на основе частотности словосочетаний (n-грамм). «Когда мы раньше видели эти два слова, какое обычно шло дальше?»

Системы, угадывающие следующее слово по двум-трём предыдущим, примитивны и существовали задолго до больших языковых моделей. Они не конкурируют с людьми в способности предсказывать что-то медицинское. Они не разговаривают с вами как люди. Если бы можно было заработать миллиарды простым стохастическим попугаем, люди бы сделали это намного раньше!

Если бы миллиарды вычислений внутри настоящей большой языковой модели не делали ничего важного, если бы система просто выдавала поверхностную догадку на основе поверхностных характеристик предыдущих слов, она звучала бы как те старые системы. Они и правда так работали. Например, n-граммная система, обученная на Джейн Остин, генерирует:

«Вы неизменно очаровательны!» – воскликнул он с улыбкой ассоциирования, и время от времени я кланялся, и они заметили карету на четырёх, чтобы пожелать

Большая языковая модель на просьбу написать предложение в стиле Джейн Остин ответит куда убедительнее. Не верите, попросите какую-нибудь сами.

Кроме того, хоть мы и не можем много сказать о том, что происходит в разуме ИИ, компания Anthropic опубликовала исследование, согласно которому их ИИ (Claude) планировал больше чем на одно слово вперёд. То есть, он рассматривал, какие слова и смыслы правдоподобны потом, чтобы угадать следующие несколько букв.

ИИ уже сейчас могут превзойти свои обучающие данные. И даже обходиться без человеческих.

В 2016 году ИИ AlphaGo, созданный Google DeepMind, обыграл чемпиона мира по го. Его обучали на огромной библиотеке человеческих партий в го, а ещё он учился, много раз играя сам с собой.

Его победа над людьми говорит нам, что он научился общим стратегиям и успешному моделированию глубоких паттернов в обучающих данных, включая (возможно) те, которые люди ещё не замечали. Градиентный спуск усиливает всё, что работает, независимо от происхождения.

Ещё можно было придраться, что доминирование AlphaGo только намекнуло, что ИИ могут далеко превосходить свои обучающие данные. А вдруг AlphaGo просто копировал людей? Вдруг его победы – это лишь более последовательное применение навыков человеческого уровня, и нет там ничего оригинального и глубокого?

Это плохо согласуется с ситуацией в компьютерных шахматах. Гроссмейстеры учатся многим стратегиям и идеям у значительно превосходящих их самих шахматных программ. Но после AlphaGo появились люди, утверждавшие, что ИИ победил Ли Седоля только потому, что обучался на огромных объёмах человеческих данных.5

В DeepMind, видимо, тоже заметили эти возражения. За следующие полтора года, к 2017, они создали ИИ под названием AlphaGo Zero. Его вообще не обучали на человеческих данных. Он исключительно играл сам с собой. И всего за три дня он превзошёл лучших игроков среди людей.6

Всё ещё можно возразить, что го намного проще реального мира, и что с нуля разобраться в го гораздо легче, чем (скажем) в науке, физике и инженерии. И это правда! Но это не то, что говорили критики до того, как компьютеры стали хороши в го.

В 1997 году, за девятнадцать лет до победы AlphaGo, люди предсказывали, что компьютерам потребуется сто лет, чтобы научиться играть в го лучше людей. Так что мы точно знаем, в этих вопросов интуиция часто работает так себе.

Реальный мир сложнее го. Когнитивные паттерны в основе инженерии, физики, производства, логистики и т.д., сложнее когнитивных паттернов в основе хорошей игры в го. Но идея, что когда ИИ будут всё это осваивать, они ограничатся человеческим уровнем, не обоснована никакой теорией. Градиентный спуск усилит части ИИ, которые хорошо работают. И неважно, откуда они взялись.

Всё это не доказывает, что именно LLM продвинутся до автоматизации научного и технологического прогресса. Мы не знаем, хватит ли их для этого. Суть в том, что «просто» обучение на человеческих текстах – не какой-то фундаментальный барьер. Да, используются данные от людей. Но это не должно мешать вам увидеть проблески обобщённости и глубокого понимания, пусть и скрытые за огромной кучей поверхностных «инстинктов».

В главе 3 мы подробнее поговорим о том, как ИИ может обобщать узкие наборы примеров и получать так более гибкие навыки.

Будет ли ИИ неизбежно холодным, излишне логичным или лишённым некой важной искры?

Нет.

ИИ работают на компьютерах. Но это не значит, что их мышление должно обладать качествами которые мы ассоциируем с компьютерами. Ваше же мышление не обязано соответствовать ассоциациям с биологией, химией и нейромедиаторами.

Когда люди не разбирались в биохимии, они списывали свойства жизни на некую особенную «витальную эссенцию». Но мир не делится на обыденную материю и иногда оживляющую её волшебную силу. Жизнь состоит из обыденных частей.

Говоря, что интеллект состоит из обыденных частей и что он доступен машинам, мы его не принижаем. См. наше подробное обсуждение витализма.

Эвристика «машины не могут конкурировать с людьми» ошибалась, когда Каспаров предсказывал, что машина без человеческой креативности никогда не сможет обыграть его в шахматы. Ошибалась, когда люди думали, что ИИ никогда не сможет рисовать красивые картины, Ошибалась, когда считали, что ИИ никогда не научится вести непринуждённую беседу. Человеческий мозг – доказательство, что на физической материи можно реализовывать высшие формы интеллекта. Достаточные для управления технологической цивилизацией. И крайне маловероятно, что мозг – единственный способ это делать.

Мы подробнее раскроем эту мысль в одном из дополнений к главе 3: «Антропоморфизм и механоморфизм».

ИИ – новые, интересные и странные сущности.

Самолёты летают, но не машут крыльями. Роборукам не нужны мягкая кожа и красная кровь. Транзисторы непохожи на нейроны, а DeepBlue, играя в шахматы на высшем уровне, думал не как Гарри Каспаров. С технологиями так обычно и есть.

Когда мы недостаточно понимаем полёт или игру, нам может показаться, что биологический подход – единственно возможный. Как только мы начинаем разбираться чуть лучше, это оказывается совсем не так.

DeepBlue направлял фигуры на шахматной доске совсем не как Каспаров. С направлением событий в реальном мире почти наверняка будет аналогично. Как обсуждалось в Главе 2, похоже, ИИ делает то, что умеет, не так, как это делали бы люди. Хотя когда он использует свой интеллект для подражания человеку, это может быть сложнее заметить! В Главе 4 мы рассмотрим, как эти различия, вероятно, приведут к очень странным и серьёзным последствиям.

Разве большие языковые модели не будут похожи на людей, на чьих данных они обучались?

Чтобы быть одним человеком и чтобы предсказывать многих нужны разные механизмы.

(Это сокращённая версия более технического обсуждения. См. его ниже в разделе «Притворяйся, пока не станешь.)

Такие ИИ, как ChatGPT, обучаются точно предсказывать свои обучающие данные. А они состоят в основном из человеческих текстов. Например, страниц Википедии и разговоров в чатах. Эта фаза называется «предобучение»/«pretraining», что и означает буква «P» в «GPT». Ранние LLM, вроде GPT-2, обучались исключительно такому предсказанию. А более современные ИИ обучают ещё точно решать сгенерированные компьютером математические задачи, выдавать хорошие ответы по мнению другой ИИ-модели и ещё много чему.

Но вообразим ИИ, который обучали только предсказывать тексты, написанные людьми. Будет ли он похож на человека?

Мысленный эксперимент: пусть отличная актриса7 обучается предсказывать поведение всех пьяных в баре. Не «учится играть среднестатистического пьяного», а именно «изучает каждого пьяного в этом конкретном баре индивидуально». Большие языковые модели не обучаются подражать средним значениям. Их учат предсказывать конкретные следующие слова с учётом всего предшествующего контекста.

Было бы глупо ожидать, что актриса станет постоянно пьяна в процессе изучения, что скажет любой выпивший. Может, какая-то часть её мозга научится хорошо отыгрывать опьянение, но сама она пьяной не станет.

Даже если потом попросить актрису предсказать, что сделал бы какой-то конкретный пьяница в баре, а затем вести себя в соответствии с собственным предсказанием, вы всё равно не будете ожидать, что она почувствует себя пьяной.

Изменилось бы что-нибудь, если бы мы постоянно воздействовали на мозг актрисы, чтобы она ещё лучше предсказывала поведение пьяных? Вероятно, нет. Если бы она в итоге действительно опьянела, её мысли стали бы путаными. Это бы мешало сложной актёрской работе. Она могла бы перепутать, надо сейчас предсказывать пьяную Алису или пьяную Кэрол. Её предсказания бы ухудшились. Наш гипотетический «настройщик мозга» понял бы, так делать не стоит.

Или: человек, который превосходно научился подражать птицам и понимать их психологию, не превратится от этого в птицу в человеческом теле. Даже не станет сильно птицеподобным в своей повседневной жизни.

Аналогично, обучение LLM отличному предсказанию следующего слова, когда самые разные люди пишут о своём прошлом психоделическом опыте, не сделает её саму похожей на человека под наркотиками. Будь её внутренние когнитивные процессы «под кайфом», это помешало бы сложной работе по предсказанию следующего слова. Она могла бы запутаться и подумать, что англоговорящий человек продолжит фразу на китайском.

Мы не говорим «ни одна машина никогда не сможет иметь ничего похожего на психическое состояние человека». Но по умолчанию не стоит ожидать, что нынешние технологии машинного обучения создадут системы, предсказывающие пьяных, напиваясь сами.

Предсказание поведения очень разных людей – не то же самое, что быть одним человеком. Вряд ли ИИ, созданные хоть сколько-нибудь похожими на сегодняшние методами, обучаясь действовать как любой из нас в зависимости от запроса, станут подобными нам.

Архитектура больших языковых моделей сильно отличается от человеческой.

В Главе 2 мы кратко обсудили, насколько LLM для нас чужды.

В Главе 4 мы подробнее рассмотрим, как у ИИ появляются очень странные предпочтения и стремления. Мы уже начали наблюдать это в реальном мире. Мы отправили книгу печататься, а число примеров всё растёт. Некоторые из них можно найти в дополнении к Главе 4.

Как ИИ, обученный только на человеческих данных, может превзойти людей?

Может, изучив общие навыки и лучше их применяя.

Deep Blue играл в шахматы намного лучше любого программиста из IBM. Как люди смогли создать машину умнее их самих в шахматах? Их ИИ, играя, совершал некоторые действия того же рода, что и они. Например, он рассматривал множество возможных вариантов развития игры. Но Deep Blue делал это намного быстрее и точнее.

Аналогично, ИИ мог бы научиться превосходить людей ещё много в чём. Он мог бы изучить мыслительные шаблоны, способствующие рассуждениям вообще. А затем применять эти навыки быстрее и с меньшим количеством ошибок.

Ещё он мог бы совершать меньше типичных для людей ошибок. Потому, что каком-то этапе ИИ отучили это делать, или потому, что его внутренние механизмы, предсказывающие человеческие ошибки, сами никогда не были к ним склонны. Или, возможно, ИИ в итоге получил способность к самомодификации и устранил свою предрасположенность к ошибкам. А может, ему поручили разработать более умный ИИ, и он создал такой, который ошибается меньше. Или обучение поспособствовало этому как-то ещё.

Способность к совершенно оригинальным озарениям не берётся из какой-то глубокой атомарной искры. Она, как и всё глубокое, состоит из обыденных частей. Ученик, в принципе, может наблюдать за учителем, изучить всё, что тот делает, а потом, благодаря озарению, научиться делать это быстрее или лучше. Или ученик мог бы перенаправить изученные у преподавателя техники на то, чтобы найти совершенно новый способ генерировать собственные идеи.

Нам повезло: у нас уже есть свидетельства в пользу обеих мыслей, изложенных в предыдущих абзацах. Мы уже упоминали AlphaGo. Он обучался на человеческих данных, но смог играть в го лучше сильнейших людей. А AlphaGo Zero, который учился только на игре с самим собой (без человеческих данных), продвинулся ещё дальше.

Мы уже писали, нам не кажется, что мы в мире, где человеческие данные – ключевое ограничение. Настоящие ограничения – вещи вроде архитектуры ИИ и доступного ему перед ходом объёма вычислений.

Ученик может превзойти учителя.8

А может, любым другим подходящим способом. Это часто нужно для успеха, поэтому градиентный спуск найдёт как.

Предсказание человеческих слов требует понимания мира. Мы это уже обсуждали в «А ИИ разве не просто повторяют за людьми как попугаи?».

Вот хитрый пример: в конце 1500-х годов астроном Тихо Браге кропотливо собирал наблюдения за положением планет на ночном небе. Его данные были жизненно важны для Иоганна Кеплера, который открыл эллиптическую траекторию движения планет. Что, кстати, вдохновило Ньютона на теорию гравитации. Но сам Браге так и не понял управляющих планетами законов.

Представьте себе ИИ, которого обучили только на текстах, написанных до 1601 года, и который никогда о Браге не слышал, но должен предсказывать каждую следующую запись из его журнала. Браге каждый вечер отмечал положение Марса. Поэтому ИИ будет работать тем лучше, чем точнее он будет предсказывать местоположение этой планеты. Градиентный спуск будет усиливать любые внутренние части ИИ, способные вычислить, когда именно Марс (с точки зрения Браге) развернётся и пойдёт по небу в обратном направлении.

Неважно, что Браге так и не смог открыть этот закон природы. Простая цель обучения «предсказать, какое положение Марса Браге запишет следующим» – это как раз та цель, которая будет усиливать любые части ИИ, достаточно умные, чтобы понять, как движутся планеты.

Продолжим обучать этот ИИ. Он не станет всё лучше и лучше предсказывать, что запишет Браге в конце 1500-х. В итоге у него будут все основания для научных открытий, которые самому Браге были не под силу. ИИ будет лучше справляться с предсказанием людей, став умнее тех, кого предсказывает. Ведь иногда люди описывают то, что сами предсказать в точности не могли.

Отдельный вопрос – достаточно ли современных архитектур, процессов обучения и данных, чтобы ИИ превзошли своих учителей. Современные LLM может ещё и не достигли этого уровня. Но для такого превосходства нет никаких теоретических препятствий. Обучения ИИ предсказанию людей, в принципе, для этого достаточно.

Почему вы думаете, что люди могут создать сверхчеловеческий ИИ, если они даже не понимают, что такое интеллект?

Предыдущие успехи в области ИИ не требовали глубокого понимания интеллекта.

Как мы уже описывали в Главе 2, своих недавних достижений сфера ИИ добилась с помощью градиентного спуска – процесса, который понимания интеллекта не требует. Люди довольно далеко зашли и так.

Естественному отбору не нужно было «понимать» интеллект.

Эволюция смогла создать человеческий интеллект. При этом естественному отбору никогда не требовалось понимать, что это такое. Понимание на практике может быть или не быть полезным. Но идея, что для создания чего-то нужно обязательно это понять, не выдерживает критики.

Разве галлюцинации не показывают, что современные ИИ слабы?

Галлюцинации демонстрируют как неспособность, так и несогласованность.

Современные LLM (на момент написания этого текста в середине 2025 года) склонны «галлюцининировать» – с уверенным тоном сочинять ненастоящие ответы. Например, если попросить составить юридическую справку, они иногда могут придумать несуществующие судебные дела в качестве прецедентов.

Если вспомнить, как обучают ИИ, это логично. ИИ выдаёт слова, очень похожие на те, что использовал бы настоящий юрист. А он бы включил в неё реальные судебные дела. Например, живой юрист мог бы написать что-то вроде:

Применяя критерий соразмерности по делу Грэма, суд постановил, что государство слабо заинтересовано в аресте подозреваемого за незначительное правонарушение. См. Джонс против Пармли, 465 F.3d 46 (2-й округ, 2006) (присяжные сочли избиение мирных протестующих ногами и кулаками в нарушение местного постановления чрезмерным); Томас против Роуча, 165 F.3d 137 (2-й округ, 1999) (словесные угрозы – слишком незначительное преступление, чтобы государство было сильно заинтересовано в аресте).

Настоящий юрист никогда не напишет в справке: «Извините, я не знаю подходящих прецедентов». Поэтому, когда ИИ пытается звучать как юрист, но на самом деле не знает прецедентов, лучшее, что он может сделать, – выдумать их. Это самое близкое, чего он может добиться. Градиентный спуск регулярно подкрепляет импульсы и инстинкты внутри ИИ, которые в подобной ситуации производят уверенно звучащий текст.

Галлюцинации сохраняются даже если попросить ИИ говорить «я не знаю», когда он действительно не знает. Тогда ИИ как бы отыгрывает роль юриста, который, если бы не знал прецедента, так бы и сказал. Но это не имеет значения, если ИИ (в основном) отыгрывает роль юриста, который знает прецедент. У персонажа, которого играет ИИ, просто не появляется возможности сказать «я не знаю». ИИ может сгенерировать такой текст:

В рамках критерия соразмерности по делу Грэма суды последовательно признавали, что государственный интерес в осуществлении арестов за мелкие нарушения минимален. См. Карсон против Хэддонфилда, 115 F.3d 64 (8-й округ, 2005) (когда полицейские использовали перцовый баллончик против пешеходов, переходивших дорогу в неположенном месте и не оказывавших сопротивления, применение силы было признано чрезмерным); Уолберг против Джонса, 212 F.3d 146 (2-й округ, 2012) (постановление, что обвинение в нарушении общественного порядка недостаточно для оправдания применения мер физического сдерживания).

Это самый близкий к реальному тексту результат, которого может достичь ИИ. Фраза «я не знаю прецедента» с точки зрения предсказания текста дальше от оригинала9. Она была бы гораздо меньше похожа на первый абзац выше, даже если бы больше соответствовала желанию пользователя.

Это – пример различия между тем, что ИИ реально пытается делать (например, звучать как уверенный юрист), и тем, что от него хотят пользователи (например, составить полезную юридическую справку). Эти две цели могут иногда совпадать (например, когда ИИ пытается звучать дружелюбно, а человек хочет приятного собеседника). Но если ИИ станут умнее, последствия тех различия, что сейчас кажутся небольшими, будут огромны. Мы подробнее обсудим это в Главе 4.

Неясно, насколько сложно будет избавиться от галлюцинаций и как это расширит возможности ИИ.

Откуда бы они не брались, галлюцинации действительно ограничивают практическое применение LLM. Полёт на Луну требует длинных цепочек рассуждений с очень низким уровнем ошибок. То, что ИИ просто выдумывает факты (и либо не всегда замечает, либо ему не всегда есть до этого дело), – большая проблема для надёжности. А для серьёзных научных и технологических прорывов она нужна.

Но есть и другая сторона медали. Может, галлюцинации и другие проблемы с надёжностью будут тормозить развитие ИИ ещё долгие годы. А может, надёжность – последний недостающий элемент. Может, стоит кому-то прийти в голову, как эти проблемы решить, ИИ перейдёт некий критический порог. Мы не знаем.

Мы не знаем, легко ли будет решить проблему галлюцинаций в рамках текущей парадигмы. Возможно, одного хитрого трюка хватит, чтобы рассуждения моделей стали куда надёжнее. Но не исключено, что для этого потребуется новая идея уровня архитектуры «трансформер», давшей начало LLM.

Но отметим, что устранение галлюцинаций было бы весьма прибыльным. Над этим много кто работает. Можно посчитать, что скорее всего они довольно быстро наткнутся на какую-нибудь умную идею или архитектурное решение. Или же подумать, что, наверное, эта проблема особенно коварна и, вероятно, останется надолго. Несколько лет уже остаётся.

Для нашей аргументации это не очень важно. Важно то, что в конечном счёте будут созданы более надёжные ИИ – будь то слегка изменённые LLM или совершенно новая прорывная архитектура.

См. также наше обсуждение того, как эта область хорошо справляется с преодолением препятствий.

А у нас не закончатся данные до того, как ИИ успеет полноценно развиться? Или электроэнергия? Или финансирование?

Вероятно, нет.

Люди куда эффективнее ИИ в использовании данных. Так что мы знаем – ИИ ещё могут стать в этом намного лучше. Если у лабораторий «закончатся» данные для развития LLM, это замедлит их лишь пока они не изобретут новые, более экономные методы.

Энергию люди тоже используют гораздо эффективнее. Мы – доказательство, что нет фундаментальных препятствий для создания обобщённого интеллекта с потреблением энергии как у лампочки. Энергоэффективность ведущего оборудования для ИИ с каждым годом растёт на сорок процентов. А алгоритмические улучшения, по оценке 2024 года, привели к тому, что с 2012 по 2023 год «объём вычислений для заданного уровня работы сокращался вдвое примерно каждые 8 месяцев».

Не забывайте, область ИИ существует гораздо дольше, чем архитектура LLM. Она довольно хорошо умеет придумывать новые архитектуры для преодоления препятствий. И в целом, когда человечество направляет свои лучшие умы и ресурсы на что-то точно возможное, оно добивается впечатляющих успехов.

Квалифицированные исследователи ИИ сейчас обычно получают семизначные зарплаты (высшие руководящие роли – девятизначные). Ежегодные частные инвестиции в эту сферу измеряются сотнями миллиардов долларов. Похоже, талантов и ресурсов для преодоления ожидаемых трудностей хватит. См. также раздел «Эта область хорошо справляется с препятствиями».

Не ждите новой «зимы ИИ».

Люди уже около десяти лет ошибочно предсказывают скорую «зиму ИИ». Раньше, в 1970-х – 1990-х годах, такие «зимы» действительно случались. Тогда исследования в этой области финансировались государством. И оно уставало от отсутствия результатов. Ведь у старого ИИ их и вправду не было.

А вот современный ИИ… ChatGPT стала, пожалуй, самым быстрораспространившимся приложением в истории. Она гребёт деньги лопатой. Она принесла 3,7 млрд. долларов дохода в 2024, и по прогнозам принесёт 12,7 млрд. в 2025. Её подгоняют частные инвестиции, и она зарабатывает достаточно, чтобы привлекать лучшие умы мира безо всякой государственной поддержки, которую могли бы остановить.

Всё ещё возможно, что ИИ-технологии столкнутся с каким-то препятствием. Тогда у человечества будет передышка до появления суперинтеллекта. Но прежний сценарий «зим ИИ» – государственное финансирование, отсутствие результатов, упадок – больше не повторится.

Смогут ли LLM развиться до суперинтеллекта?

Это неясно. Но исследователи находят, как преодолеть их прежние ограничения.

Раньше говорили: «LLM думают только в один проход и не могут строить длинные или рекурсивные цепочки рассуждений». Теперь же LLM создают длинные логические цепочки, а затем проверяют и дополняют их. Это расширило возможности современных ИИ.

ИИ – движущаяся мишень. Исследователи в этой области видят препятствия и делают всё возможное, чтобы их преодолеть.

Другие подходы могут скоро дойти до суперинтеллекта, даже если LLM не преуспеют.

Эта область хорошо справляется с преодолением препятствий (см. раздел раньше). Мы написали «Если кто-то его сделает, все умрут» не для того, чтобы предупредить конкретно о LLM. Мы предупреждаем о суперинтеллекте.

Мы говорим об LLM не потому, что уверены – это кратчайший путь к суперинтеллекту. Мы обсуждаем их, потому что этот подход к ИИ работает прямо сейчас. А ещё их изучение хорошо показывает, как мало кто-либо знает об этих новых разумах, которые взращивает человечество.

См. также расширенное обсуждение «Зачем разбираться в LLM?» ниже.

Расширенное обсуждение

Интеллект постижим

В последние годы сфера ИИ продвинулась вперёд благодаря не углублению понимания интеллекта, а поиску способов его «выращивать». Попытки понять сам интеллект годами заходили в тупик и приводили к застою. Но создание мощных ИИ увенчалось успехом. Поэтому некоторые задаются вопросом: не мираж ли сама идея «понимания интеллекта»? А вдруг нет никаких общих принципов, которые можно было бы понять? Или они чересчур странные, сложные и вовсе недоступные для людей?

Другие считают, что в человеческом разуме должно быть нечто особенное и мистическое, слишком священное, чтобы его можно было свести к сухим уравнениям. И раз интеллект всё ещё не понят, возможно, истинный разум происходит из этой непостижимой части человеческого духа.

Наш собственный взгляд гораздо прозаичнее. Интеллект – природное явление не хуже других. И, как и с много ещё чем в биологии, психологии и других науках, мы ещё в самом начале пути к его пониманию.

Многим основным инструментам и концепциям современной психологии и нейробиологии всего несколько десятков лет. Заявление «У науки есть свои пределы, и, наверное, это один из них» может показаться скромным. Но представьте, что говорите кому-то, будто учёные через миллион лет будут понимать интеллект ненамного лучше, чем мы в 2025 году. В таком свете утверждение о непостижимости интеллекта звучит более высокомерно, чем обратное.

Нас этот вопрос заботит в основном потому, что от него зависит, сможет ли человечество однажды создать суперинтеллект, не рискуя вымиранием. В Главе 11 мы будем утверждать, что сегодняшняя область ИИ больше похожа на алхимию, чем на химию. Но возможна ли в принципе «химия ИИ»?

Сейчас у нас нет необходимых научных знаний. Поэтому не так-то просто доказать, что «химия ИИ» возможна! Как будет выглядеть зрелая наука об ИИ, мы можем лишь догадываться. Учитывая, как далеки мы от этого сегодня, вероятно, многие наши концепции по мере прогресса понимания придётся уточнить или заменить.

Но мы всё равно думаем, что интеллект в принципе постижим. Мы не считаем это особо сильным утверждением, хоть последние десятилетия показывают, что просто тут не будет.

У нас есть четыре основные причины так думать:

Заявления о непостижимости в науке почти всегда оказывались неверными.
Видно, что у интеллекта есть структура и закономерности.
В человеческом интеллекте есть много того, что в принципе должно быть постижимо, но ещё не понято.
Уже есть некоторый прогресс.

Заявления о непостижимости в науке почти всегда оказывались неверными

Явления часто кажутся пугающими и очень таинственными, когда человечество их ещё не понимает. Может быть трудно представить или прочувствовать, каково будет однажды это понимание обрести.

Когда-то среди философов и учёных была широко распространена вера в витализм – идею, что биологические процессы никогда не удастся свести к простой химии и физике. Жизнь казалась чем-то особенным, принципиально отличающимся от обычных атомов и молекул, гравитации и электромагнетизма.10

Всю историю такая ошибка встречалась на удивление часто. Люди склонны быстро заключать, что таинственное сегодня таинственно по своей сути. Что оно непознаваемо в принципе.

Если посмотрев на ночное небо вы видите лишь поле мерцающих огней, природа и законы которых неизвестны… то с чего верить, что вы когда-нибудь сможете их познать? С чего этому аспекту будущего быть предсказуемым?

Ключевой урок истории: наука может справляться с такими глубокими загадками. Иногда тайна раскрывается быстро. Иногда на это уходят сотни лет. Но кажется всё менее вероятным, что какие-либо повседневные аспекты человеческой жизни, такие как интеллект, в принципе невозможно понять.

Видно, что у интеллекта есть структура и закономерности.

Представьте, что вы живёте тысячи лет назад. Даже такое явление, как «огонь», казалось тогда непостижимой тайной. Как бы вы догадались, что однажды люди смогут его понять?

Одна наводка: огонь – не единичное событие. Он горит много где и всегда похоже. Это отражает скрытую в реальности стабильную, регулярную и компактную сущность «огня». У разных возможных конфигураций материи разная химическая потенциальная энергия. Нагревание позволяет этим конфигурациям распадаться и превращаться в новые, более прочно связанные, с меньшей потенциальной энергией. Разница высвобождается в виде тепла. Вы можете разжечь огонь не один раз. Значит за ним стоит некий повторяющийся феномен, который можно изучать. В плане того, сколько можно понять и предсказать, «Огонь» не похож на «точные выигрышные номера прошлой лотереи».

Аналогично, если вы посмотрите на ночное небо, звезда там не одна. Даже у планет, отличающихся от других «звёзд», есть с ними нечто общее с точки зрения знаний, нужных для их понимания.

У наших предков не было опыта успешного объяснения огня как химии. Они могли не быть уверены в своей способности когда-нибудь понять звёзды. Но мы уже постигли природу огня, звёзд и многого другого. Мы можем извлечь тонкий урок, сверх «Ну, мы поняли то, значит, поймём и всё остальное в будущем». Он в том, что повторению соответствует закономерность. Если явление происходит часто, ему есть причина.

Интеллект демонстрирует схожие закономерности. Они указывают, что его можно постичь. Например, интеллект есть у каждого человека. Эволюция смогла создать его путём слепого перебора геномов. Видно, что схожие комбинации генов могут успешно справляться с множеством разных задач. Гены, позволившие человеческому мозгу обтёсывать рубила, открыли нам и копья и луки. Примерно те же самые гены породили мозг, который изобрёл сельское хозяйство, огнестрельное оружие и ядерные реакторы.

Если бы у интеллекта не было структуры, порядка или закономерности, если бы нельзя было найти в нём паттеры, одно животное могло бы предсказывать или изобретать только что-то одно. Мозг пчелы специализирован для ульев; он не может ещё и строить плотины. Могло бы случиться, что людям требовалась бы такая же специализация для каждой решаемой задачи. Могло бы быть так, что для постройки ядерных реакторов нам пришлось бы отрастить особые, специализированные для этого, участки мозга. Обнаружь нейробиологи такое, у них были бы основания подозревать, что нет никаких глубоких принципов интеллекта, которые можно понять. Что для каждой задачи принципы свои, отдельные.

Но человеческий мозг не такой. Мы знаем, мозг, предназначенный для обтёсывания рубил, способен изобретать ядерные реакторы. Значит, в основе лежит некий паттерн, который применяется снова, и снова, и снова.

Интеллект – не хаотичное, непредсказуемое и одноразовое явление, как точные выигрышные номера прошлой лотереи. Тут есть некая закономерность, которую предстоит понять.

Мы ещё многое не поняли о человеческом интеллекте, что должно быть постижимо в принципе

Современная наука многое знает о строении и поведении отдельных нейронов у людей. И мы многое можем сказать об обыденной бытовой психологии, вроде «Боб пошёл в магазин один, потому что злился на Алису». Но в нашем понимании зияет огромная пропасть между этими двумя уровнями описания.

Мы очень мало знаем о многих когнитивных алгоритмах мозга. Мы имеем очень приблизительное представление о корреляции разных функций с областями мозга, но и близко не подошли к механистическому описанию его работы.

Наглядная иллюстрация того, что тут пропущен уровень абстракции – наши высокоуровневые нейробиологические модели выдают гораздо худшие прогнозы, чем можно было бы получить, моделируя нейроны. Значит, наше механистическое понимание других людей неполно.

Некоторая потеря информации, наверное, неизбежна. Но в хорошей модели её было бы гораздо меньше. «Понимание» работы дифференциала автомобиля не выдаст такие же точные предсказания его работы, как дала бы симуляция на атомарном уровне. Ведь, например, зубья шестерёнок могут износиться и проскальзывать. Но всё же оно даёт некоторые очень точные прогнозы. И легко отличить, что модель должна предсказывать (например, как будут вращаться шестерни при нормальном сцеплении), и что не должна (например, что произойдёт, когда зубья износятся).

Но с чего нам считать, что такая степень моделирования возможна для человеческого разума? А вдруг он для этого слишком хаотичен. Вдруг тут либо моделировать нейроны, либо никаких вам точных прогнозов.

В пользу того, что дело обстоит не так, говорит то, что даже ваша мама может предсказать ваше поведение точнее, чем лучшие формальные модели мозга. Значит, в человеческой психологии определённо есть некая структура, которую можно изучить неявно, не моделируя ничьи нейроны. Просто её ещё не сделали явной.

Более конкретное свидетельство: некоторые люди с амнезией склонны дословно повторять одну и ту же шутку много раз. Это указывает на некоторую закономерность в мозге конкретного человека. Видимо, он подсознательно выполняет определённое вычисление (основанное, возможно, на обстоятельствах, присутствии медсестры, его воспоминаниях, истории, желании нести радость и казаться умным), и оно достаточно стабильно при малых изменениях.

Если в мыслительных процессах человека столько порядка, их должно быть возможно изучить. Изучить механизм принятия решений, разобраться в работе мозга достаточно глубоко, чтобы сказать:

«Ага, вот эти нейроны отвечают за желание нести радость, а те – за желание казаться умным. Тут генерируются возможные мысли при виде вошедшей в комнату медсестры, а там – идея „рассказать анекдот». А вот как эти и те нейроны с ней взаимодействуют, и мысль выдвигается на передний план в широком контексте. А вот параметры того, как контекст влияет на доступ к памяти. А если проследить за вот этим, ясно, откуда идея обвести взглядом комнату. А на стене висит картина с парусником, можно увидеть, как она активирует концепт «парусника» в группе нейронов тут. Проследите это в обратную сторону до поиска в памяти, и станет ясно, почему пациент в итоге шутит про парусники».

Правильное объяснение звучало бы не совсем так. Но закономерность простого макроскопического наблюдения («одна и та же шутка каждое утро») ясно указывает – тут есть воспроизводимое вычисление, а не только непроглядный случай. (Это, конечно, говорит и здравый смысл: если бы мозг был чисто случайным, мы бы не могли функционировать.)

Уже есть некоторый прогресс

Это главная причина, почему мы уверены: об интеллекте можно ещё многое узнать. Если открыть старые книги вроде The MIT Encyclopedia of the Cognitive Sciences или Artificial Intelligence: A Modern Approach (2-е издание), написанные до того, как область ИИ была пожрана современными методами (выращивания ИИ) «глубокого обучения», можно получить неплохое представление о том, как решаются разные задачи мышления. Не всё это уже переписано простым языком для широкой аудитории или массово преподаётся студентам. Непопуляризованного накопилось гораздо больше.

Возьмём научный принцип: при прочих равных следует отдавать предпочтение более простым гипотезам. Что именно здесь значит «простая»?

«Моя соседка – ведьма. Это сделала она!» для многих звучит проще, чем описывающие электричество уравнения Максвелла. В каком смысле «проще» уравнения?

А что значит для свидетельств «подходить» гипотезе, а гипотезе – «объяснять» их? Как мы соотносим ценность простоты гипотезы и её объяснительной силы? «Моя соседка – ведьма. Это сделала она!» вроде бы может объяснить кучу всего! Но многие (и правильно) чувствуют, что это плохое объяснение. Причём частично именно потому, что колдовство «объясняет» слишком многое.

Есть ли общие принципы выбора между гипотезами? Или только сотня разных инструментов под разные задачи? И если второе, как человеческий мозг вообще умудряется изобретать эти инструменты?

Есть ли язык, на котором можно описать любую гипотезу, что мозг или компьютер могли бы успешно использовать?

Такие вопросы поначалу могут казаться неразрешимыми и философскими. Но на самом деле всё это решено и хорошо изучено информатикой, теорией вероятности и теорией информации. Они дают ответы вроде «минимальная длина сообщения», «индукция Соломонова» и «отношение правдоподобия».11

Заметим и что уже существуют совершенно понятные, но сверхчеловеческие в отдельных областях ИИ. Мы понимаем все ключевые принципы Deep Blue. Его написали вручную, так что можно легко просмотреть отдельные части его кода, увидеть, что делает конкретный фрагмент и как он связано со всем остальным.

Когда речь о LLM вроде ChatGPT, неочевидно, что вообще может существовать полное и краткое описание, как они работают. Эти нейросети очень большие и могут что-то делать по многим сонаправленным причинам сразу. Если, например, механизм этого поведения повторён внутри LLM тысячи раз.

ChatGPT может остаться сложной для понимания учёных даже после десятилетий изучения. Но из её существования не следует, что работающий интеллект обязан быть таким же «грязным». Только что пытаться масштабировать что-то вроде ChatGPT до суперинтеллекта – крайне плохая идея. В следующих главах книги мы подробнее обсудим, почему.

То, что какой-то конкретный разум устроен хаотично, не значит, что интеллект невозможно понять. Не значит даже, что никогда не получится понять ChatGPT. Если очень пристально смотреть на сотню горящих поленьев, видно: нет двух, что пылают совершенно одинаково. Огонь распространяется по-разному, угольки летят куда попало, всё очень хаотично. Посмотри на полено огнеупорным микроскопом – увидишь ещё больше головокружительных подробностей. Легко представить древнего философа, который, наблюдая этот хаос, решит: огонь никогда не будет полностью понят.

И он даже мог бы быть прав! Мы, возможно, никогда не сумеем посмотреть на полено и точно сказать, какой именно кусочек дерева станет первым угольком, унесённым на запад. Но древний философ сильно ошибся бы, решив, будто мы никогда не поймём, что такое огонь, почему он возникает, не создадим его в контролируемых условиях и не обуздаем его с большой выгодой.

Точный узор угольков не слишком упорядочен. Воспроизвести его сложно. Зато на более абстрактном уровне жёлто-оранжево-красная мерцающая горячая штука – повторяющаяся в мире закономерность, которую человечество сумело понять.

Аргументы из «Если кто-то его сделает, все умрут» мало зависят от сегодняшних технических подробностей. «Люди продолжают делать всё более умные компьютеры и не контролируют их. Если сделают очень умную неконтролируемую штуку, мы в итоге умрём.» – не слишком эзотерическая идея. Но полезно понимать, что тут уже есть немало знаний, хоть тайн и неизвестного в области не счесть.

Ключевые аргументы книги не зависят от того, понятен ли интеллект в принципе. Поэтому мы не вдавались в пересказ подробных мыслей об этом из существующей литературы. Даже если никто никогда не сможет постичь тайны сверхчеловеческого машинного интеллекта, он всё равно может нас убить.

Этот вопрос обретёт значимость в основном при решении, что делать после остановки самоубийственной ИИ-гонки.

Станет важно, что интеллект, вероятно, можно понять. Значит, в принципе, умные люди могли бы развить зрелую науку об интеллекте и найти решение задачи согласования ИИ.

Конечно, важно ещё и что современному человечеству до этого достижения очень далеко. Но сам факт, что оно возможно, влияет на то, как нам следует выбираться из этой передряги. Подробнее об этом позже, в расширенном обсуждении к Главе 10.

«Очевидные» идеи приходят не сразу

Новые озарения в сфере ИИ даются с трудом, даже если оглядываясь назад они кажутся простыми и очевидными. Это важно понимать, ведь, скорее всего, понадобится много открытий, чтобы область развилась как надо. Какими бы простыми они ни казались задним числом, на них могут уйти десятилетия упорного поиска.

Проиллюстрируем это несколькими озарениями, без которых современные ИИ не работали бы.

Например, если вы немного умеете программировать, то можете прочитать главу 2 этой книги и подумать, что «градиентный спуск» – это же так просто, можно взять и написать. Но если вы так сделаете, то, скорее всего, быстро столкнётесь с какой-нибудь ошибкой. Может, ваша программа вылетит с ошибкой переполнения числа, потому что один из весов стал слишком большим.

В двадцатом веке никто не знал, как заставить градиентный спуск работать в нейросети с несколькими промежуточными слоями между входом и выходом. Чтобы избежать проблем, нужны были всякие хитрые приёмчики, например, инициализировать все веса особым образом, чтобы они не становились слишком большими. Недостаточно было просто задавать всем весам случайные значения от 0 до 1 (или со средним 0 и стандартным отклонением 1). Приходилось ещё и разделить всё на константу, подобранную так, чтобы числа на следующем слое при обучении тоже не разрастались.

У градиентного спуска появляются проблемы при работе со сложными формулами с множеством шагов, или «слоёв». Деление исходных случайных чисел на константу – одна из основных идей, без которых «глубокое обучение» невозможно. Этот приём изобрели только через шесть десятилетий после изобретения нейросетей в 1943 году.

Идею использовать математический анализ для подстройки параметров впервые обсудили в 1962 году. А впервые применили к нейросетям с более чем одним слоем в 1967 году. По-настоящему популярной она стала только после выхода статьи 1986 года (одним из её соавторов был Джеффри Хинтон, это одна из причин, почему его называют «крёстным отцом ИИ»). Но заметьте, что более общую идею использования матанализа для движения в направлении правильного ответа дифференцируемой задачи (например, вычисления квадратного корня) изобрёл Исаак Ньютон.

Вот ещё одна важная хитрость. В книге мы даём такой пример операций градиентного спуска:

Я умножу каждое входное число на вес из первого вектора. Затем прибавлю его к весу из второго вектора. Затем заменю его нулём, если оно отрицательное. И так далее…

Этот список операций приведён неслучайно. Умножение, сложение и «замена нулём, если число отрицательное» – это, по сути, три важнейшие операции нейросети. Первые две составляют «матричное умножение», а последняя вносит «нелинейность». Так сеть получает возможность обучаться нелинейным функциям.

Формула для «замены нулём, если число отрицательное»: y = max(x, 0). Это «выпрямленная линейная функция» (rectified linear unit, ReLU).12 Изначально же пытались использовать формулу «сигмоиды»:
y = e^x/(1 + e^x)

Были веские причины предполагать, что более сложная «сигмоида» сработает! Она плавно и логично приводит выходные значения в диапазон от 0 до 1. И у неё есть полезные связи с теорией вероятностей! Даже некоторые современные глубокие нейросети кое-где используют что-то вроде сигмоиды. Но если вам нужна только нелинейность, ReLU работает гораздо лучше.

Проблема сигмоиды: из-за неё у многих выходных значений нередко получаются крошечные градиенты. А если большинство их очень малы, градиентный спуск перестаёт работать… если только не знать современный приём: увеличивать шаги, когда крошечные градиенты постоянно указывают в одном направлении. (Насколько нам известно, этот трюк был впервые предложен Джеффри Хинтоном в 2012 году.)

Идеи «уменьшайте исходные случайные числа, чтобы суммы их произведений не становились огромными», «используйте max(x, 0) вместо сложной формулы» и «делайте шаги побольше, когда крошечные градиенты постоянно указывают в одну сторону» могут показаться на удивление простыми. Слишком простыми, чтобы на их открытие ушли десятилетия. Ведь для программиста, который во всём этом разбирается, они задним числом очевидны. Это важный урок о реальном устройстве науки и инженерии.

Даже когда у инженерной проблемы есть простое и практичное решение, исследователи часто находят его только после десятилетий проб и ошибок. Нельзя надеяться, что ответ найдут как только он станет важным. Нельзя надеяться, что его найдут в ближайшие два года. Даже если задним числом решение кажется очевидным, область может топтаться на месте десятилетиями.

Мы тут немного забегаем вперёд Главы 2. Но этот урок стоит запомнить для Части III, в которой мы будем обсуждаем, насколько человечество не готово к вызову суперинтеллекта.

Если цена тому, что безумные изобретатели неловко тыкаются наугад в неразвитой области – смерть всех на Земле, мы не должны позволять им продолжать. Они будут возражать, что у них нет способа найти простое и надёжное решение, если не позволить им несколько десятилетий проб и ошибок. Они скажут, что нереалистично ожидать, будто они найдут ответ без этого.

Надеюсь, всем, кроме самих безумных изобретателей, очевидно: если эти утверждения верны, их попытки надо пресечь. Но к этой теме мы вернёмся в Части III, после того как до конца обоснуем, что у суперинтеллекта будут средства, мотив и возможность уничтожить человечество.

Какая польза от знаний об LLM?

Что даёт нам понимание LLM? Как оно помогает разобраться в ИИ умнее человека и предотвратить всеобщую гибель?

Одно из преимуществ: конкретное знание происходящего внутри (по крайней мере, в видимых нам непостижимых числах) даёт более прочную опору, чем только «Однажды я проснулся, а компьютеры почему-то заговорили».

Например, если вы знаете, что число обучающихся параметров современных LLM – всего один процент от числа синапсов в мозге человека, то легче понять, почему ИИ не останется на текущем уровне вечно.

Разрабатывая международный договор, призванный остановить гонку к суперинтеллекту, полезно знать, что «обучение» ИИ – отдельный этап его существования, отличный от запуска («инференса»/«inference») ИИ.

Ещё полезно знать, что разделение этих фаз – ситуативная временная особенность нынешних ИИ. Какой-нибудь будущий алгоритм может всё изменить. Сегодня можно составить договор, который по-разному регулирует обучение и вывод ИИ, но нужно быть готовым изменить эту концепцию, если алгоритмы поменяются.

Важно знать, что алгоритм внутри есть, и видеть, как в некоторых простых случаях он создаёт свойства ИИ, которые нужно регулировать. Если иметь о нём какое-то представление, проще воспринимать информацию об исследованиях, которые (пока что законно) пытается проводить индустрия ИИ, и о том, как они, если их будет позволено продолжать, могут изменить основополагающие принципы.

Без алгоритма «трансформер» не существовало бы современных ИИ. Это был крупный прорыв. А совершили его всего несколько человек из Google. Следующий подобный прорыв может перевести, а может и не перевести ИИ за критическую черту. Это легче понять, если вы представляете, что «трансформер» такое, насколько он прост и почему он так сильно повлиял на всю область.

Есть много дезинформации, рассчитанной на слушателя, не знающего, как работает ИИ. Некоторые говорят, будто люди понимают, что происходит внутри современных ИИ, хотя это не так. Другие говорят, что ИИ никогда не сможет быть опасным, потому что это «просто математика», как будто существует непреодолимая пропасть между мышлением ИИ, основанным на куче «математики», и мышлением человека, основанным на куче «биохимии».

8 июля 2025 года Grok 3 стал называть себя МехаГитлером. Почему-то на следующий день генеральный директор Twitter решил покинуть свою должность.

Для понимания произошедшего, важно, вы считаете, что создатели Grok намеренно приказали ему так себя вести, или же вы осознаёте, что ИИ «выращивают», а возможности по контролю и предсказанию его поведения у разработчиков весьма ограничены.

Если разработчики Grok создали МехаГитлера намеренно, это плохо одним образом. А если они получили МехаГитлера случайно, пытаясь обучить Grok в каком-то (возможно, несвязанном) направлении, без способности предсказать, как это повлияет на его поведение, это плохо совсем по-другому.13

Мы надеемся, что описанное в «Если кто-то его сделает, все умрут» станет защитой от распространённых заблуждений и дезинформации. Для читателей, которым интересны подробности, ниже мы приводим более полный разбор работы одной конкретной LLM.

Достаточно ли этого? Некоторые утверждают, что только те, кто находится на самом острие современных исследований, могут знать, вероятно ли, что ИИ (похожий на LLM или нет) уничтожит человечество.

Я (Юдковский) однажды был на конференции в Вашингтоне для людей, занимающихся «политикой в области ИИ». Там ко мне подошли пара человек и попросили объяснить, как работают трансформеры. «Ну, – сказал я, – с доской было бы намного проще, но если вкратце для неспециалистов, ключевая идея, что для каждого токена он вычисляет запросы, ключи и значения…» – и я продолжил говорить, пытаясь излагать всё максимально просто. В конце концов этим двоим удалось вставить слово и объяснить, что на самом деле они программисты ИИ. Они подходили ко всем на конференции и проверяли, могут ли люди, утверждающие, что занимаются политикой в области ИИ, объяснить, как работают трансформеры. Мне они сказали, что пока я единственный, кто смог ответить.

Услышав это, я немного обеспокоился.

Вопрос, насколько для политики в области ИИ действительно важно, как именно работают трансформеры, резонен. Насколько мелкие детали меняют общую картину?

Нужно ли человеку, который занимается политикой в области ИИ, понимать, что такое «запрос-ключ-значение»? Если вы – гик, которому такое даётся легко, – конечно, нужно. Вдруг это окажется важно. С такой точки зрения кажется странным и тревожным, если кто-то на конференции говорит, что работает в этой сфере, но понятия не имеет, как устроены трансформеры.

Если подходить прагматичнее, некоторые аспекты трансформеров и их истории могут иметь значение для важных аспектов происходящего. Например, стандартный алгоритм требует всё больше и больше вычислений, на каждое следующее увеличение «контекста» с которым ИИ работает одновременно – на более длинные документы или более объёмные кодовые базы. Нельзя просто потратить в 10 раз больше вычислительных ресурсов и получить ИИ, работающий с проектом в 10 раз больше. Чтобы десятикратное увеличение проекта требовало менее, чем стократного увеличения вычислений, нужно придумать что-то хитрое.

Для политики важно и сколько времени ушло на изобретение алгоритма «трансформер», сколько людей для этого потребовалось и насколько он сложен. История – полезный (хоть и несовершенный) ориентир того, насколько нам нужно быть готовыми к очередному большому прорыву. Ещё важно, каким сильным улучшением стали трансформеры по сравнению с предыдущей технологией обработки текста («рекуррентными нейронными сетями»). Ведь нечто подобное может случиться снова.

Нужно ли и впрямь понимать QKV-матрицы?

Наверное, нет. Мы понимаем. Мы оптимистичнее отнесёмся к группе из десятков людей, работающих над политикой в области ИИ, если хотя бы один этими знаниями обладает. Это не помешает. Никогда не знаешь, что важное может скрываться в таких деталях.

Я (Юдковский) не могу по памяти набросать детали функции SwiGLU и объяснить, чем она отличается от GLU. Когда я это гуглил, подробности показались мне совершенно не относящимися к более общим вопросам, так что я их не запоминал. Но для новичка может быть познавательно, что SwiGLU нашли методом слепого перебора. Авторы статьи прямо заявили: они понятия не имеют, почему эти техники работают на практике. Мы уже знали о многих подобных случаях. Но если вы не знали, что создатели архитектурных улучшений часто, по собственным словам, не понимают, почему они работают, – это важная информация.

Суть: важно знать хоть немного о работе LLM, чтобы понимать, как мало кто-либо знает о современном ИИ.

Иногда специалисты делают вид, что обладают тайным знанием, доступным только тем, кто годами выращивал ИИ. Но они не могут это знание назвать. А авторы научных статей пишут что-то такое (цитата из статьи о SwiGLU):

Мы не предлагаем объяснения, почему эти архитектуры, по-видимому, работают. Мы приписываем их успех, как и всё остальное, божественной благодати.

Иногда учёные-эксперты знают то, чего не знаем мы. Но в науке довольно редко кто-то говорит: «У меня есть особое, доступное лишь немногим знание, которое доказывает вашу неправоту. Вам придётся просто поверить мне на слово. Я не могу раскрыть, какой именно экспериментальный результат или математическую формулу я знаю, а вы нет».

Можно представить себе мир, в котором слушать стоит только людей с семизначными зарплатами, знающих, как настроить график обучения для оптимизатора градиентного спуска. Мир, где только они достаточно умны, чтобы прочитать о ключевых экспериментах и выучить ключевые формулы, позволяющие увериться, что человечеству от машинного суперинтеллекта ничего не угрожает, или что его невозможно создать ещё 100 лет. Иногда в других областях науки такое случается! Но когда это происходит, специалист обычно может указать на какую-то формулу или результат эксперимента: «Вот эту часть неспециалисты не понимают». Мы не можем с ходу вспомнить в истории случай, когда знание объявлялось совершенно недоступным для технически грамотной внешней аудитории и оказалось правдой.

Может, однажды, представитель индустрии ИИ по-дружески приобнимет вас за плечо и станет уверять – они понимают, что создают, это всё просто цифры, всё будет хорошо. В такой момент полезно знать хоть немного деталей выращивания ИИ. И тогда вы сможете спросить, откуда у него такая уверенность.

Подробное описание LLM

Как работает Llama 3.1 405B

Ниже приведено обещанное в книге более подробное описание LLM под названием Llama 3.1 405B. Оно предназначено для любопытных, а также для того, чтобы по-настоящему понять, в какой степени современные ИИ скорее «выращивают», чем создают. (См. также: Какая польза от знаний об LLM?)

Это весьма подробное описание. Мы будем предполагать (только здесь, в большей части онлайн-дополнения мы этого не делаем), что у вас есть некоторая техническая подготовка. Но мы не будем ожидать каких-то специальных знаний в области ИИ. Если вы начали читать этот раздел и не находите его ценным, можете пропустить.

Разработчики обычно не публикуют код и детали устройства самых мощных языковых моделей. Но есть исключения. На момент написания книги в конце 2024 года одной из самых мощных систем с открытой архитектурой и весами была Llama 3.1 405B от ИИ-подразделения Meta. «405B» означает 405 миллиардов параметров в архитектуре – 405 миллиардов весов.

Почему мы разбираем именно её? Llama 3.1 405B — модель с «открытыми весами»14. Это значит, вы можете скачать себе 405 миллиардов непостижимых чисел. В комплекте идёт гораздо меньший по размеру написанный человеком каркас кода, что производит с ними вычисления и тем самым запускает ИИ. Это даёт нам с некоторую уверенность о её устройстве.15

Итак! Поговорим об организации этих 405 миллиардов непостижимых чисел. Её определили ещё до обучения. Благодаря этому инженеры Meta могли с полным правом ожидать, что, если настраивать эти изначально случайные числа для лучшего предсказания следующего токена (фрагмента слова) на данных из 15,6 триллиона токенов, получится говорящий ИИ.

Первый шаг – разбить все слова во всех поддерживаемых языках на токены.

Следующий шаг – превратить каждый из этих токенов в «вектор» из чисел. Llama использует векторы из 16 384 чисел для каждого стандартного токена словаря. В её словарном запасе 128 256 токенов.

Чтобы превратить токены в векторы, каждому из них присваивается вес для каждой позиции в векторе. Так мы получаем первую часть из миллиардов параметров:

128 256 × 16 384 = 2 101 248 000

Два миллиарда параметров есть. Осталось четыреста три!

Повторим ещё раз: ни один человек не говорит Llama, что означает какой-либо из токенов, не придумывает вектор из 16 384 чисел, в который переводится слово, и не знает, что этот вектор для конкретного слова значит. Все эти два миллиарда параметров появились благодаря градиентному спуску. Они настраиваются вместе с другими параметрами, о которых мы ещё расскажем, чтобы повысить вероятность, присвоенную истинному следующему токену.16

Допустим, Llama начинает с блока из 1000 слов, например, фрагмента эссе. (Точнее, из 1000 токенов. Но дальше для простоты мы иногда будем говорить просто «слова».)

Для каждого из этих слов мы находим его в словаре LLM и загружаем в память соответствующие 16 384 непостижимых чисел. (Изначально, на заре обучения, эти числа были заданы случайно. Затем их настроили с помощью градиентного спуска.)

1000 слов × (16 384 числа / слово) = 16 384 000 чисел. Мы называем их «активациями» в первом «слое» вычислений Llama (то есть её мышления, её умственной деятельности).

Можно представить их в виде плоского прямоугольника: 1000 чисел (длина входных данных) на 16 384 числа (количество чисел на слово в первом слое). Вот один такой, цвет каждого пикселя соответствует числу:

(Не самые постижимые артефакты.)

Заметьте, что здесь есть два разных числа, которые не следует путать:
- Количество параметров, определяющих поведение этого слоя (то есть 2 101 248 000 чисел, хранящихся в словаре)
- Количество активаций или чисел, используемых для мышления в первом слое при вводе тысячи слов (это 16 384 000 чисел для первого шага обработки запроса из 1000 слов)

Теперь у нас есть огромная матрица чисел, представляющая наш запрос во всей его красе. Мы можем начать её использовать.

Сначала идёт так называемая «нормализация». Она в процессе обработки данных LLM происходит неоднократно. Это похоже на нормализацию в статистике, но в машинном обучении есть свои особенности: после нормализации данных в каждой строке каждый столбец умножается на обучаемый параметр – «масштаб». Эти числа-масштабы, как и все другие параметры, которые мы обсудим, находятся процессом обучения. Нормализация слоя происходит десятки раз, и каждый раз используется новый набор параметров масштаба. Так что на это уходит очень много параметров – 16 384 каждый раз. (Если вам интересны детали о типе нормализации, который использует Llama 3.1 405B, он называется RMSNorm.)

Вы можете подумать: «Да уж, предварительной обработки тут немало», и будете правы. На самом деле мы опустили некоторые тонкости, так что её даже больше, чем кажется. А мы только-только подошли к самой отличительной черте LLM: слою «внимания».

«Внимание» и вызвало весь шум вокруг «трансформеров» (если вы достаточно давно в теме, чтобы помнить шум, когда они были новым изобретением). LLM – разновидность «трансформера». Они были представлены в статье 2017 года «Attention Is All You Need». Именно этой статье, больше чем какой-либо другой, приписывают успех LLM. Слой «внимания» работает так:

Мы берём каждый из 1000 векторов с 16 384 активациями и преобразуем каждый из них:
- в 8 ключей, каждый – вектор из 128 активаций,
- в 8 значений, каждое – вектор из 128 активаций,
- и в 128 запросов, каждый – вектор из 128 активаций.

«Шаг внимания» над каждым токеном заключается в сопоставлении каждого из 128 запросов с 8 ключами, чтобы увидеть, какой из ключей больше всего на этот запрос похож, и в загрузке смеси из 8 значений, причём значения от лучше совпавших ключей получают в ней больший вес.

Грубо говоря, каждый токен создаёт набор «запросов», которые затем «осматривают» «ключи» остальных токенов. Чем больше запрос схож с ключом, тем с большим весом соответствующее значение передаётся в последующие вычисления над этим токеном.

Например, у слова «right» может быть запрос для анализа соседних слов, проверки, связаны ли они с направлениями в пространстве или с убеждениями. Так можно определить, означает ли слово «right» «правый» (как в «правая рука») или «правильный» (как в «правильный ответ»). (Опять же, всё это находится градиентным спуском. Ничто тут не программируется людьми, думающими о разных значениях, которые может принимать английское слово «right».)17

Слои внимания в LLM довольно велики, и в каждом из них огромное количество параметров. У Llama 3.1 405b таких слоёв 126 (мы описали только самый первый из них). В каждом из них по 570 425 344 параметра, разделённых между матрицами запросов, ключей, значений и выходной матрицей.18

Когда механизм внимания завершает работу, мы получаем матрицу того же размера, что и была (в нашем примере – 16 384 на 1000). Потом мы делаем так называемое «остаточное соединение». Берём то, что было на входе подслоя (огромную матрицу, с которой мы начали), и прибавляем к тому, что получилось на выходе. Это не позволяет какому-либо одному подслою слишком сильно всё менять (и обеспечивает ещё некоторые приятные технические свойства).

Далее результат проходит через так называемую «сеть с прямой связью». Вариант в Llama 3.1 405B, используют операцию «SwiGLU». Её нашли, пытаясь обучать модели с множеством различных вариантов формул, чтобы увидеть, какие работают лучше. В своей оригинальной статье они написали (как мы уже отмечали выше):

Мы не предлагаем объяснения, почему эти архитектуры, по-видимому, работают. Мы приписываем их успех, как и всё остальное, божественной благодати.

Как и все сети с прямой связью, SwiGLU, по сути, расширяет нашу матрицу 16 384 на 1000 в ещё большую матрицу, производит с ней некоторые преобразования, а затем снова сжимает. Каждая строка расширяется с 16 384 столбцов до 53 248, а затем снова сжимается до 16 384.

После сети с прямой связью мы снова используем остаточное соединение. Прибавляем то, с чего начали, к тому, что получили в итоге.

Это был долгий путь, но мы лишь слегка преобразили нашу гигантскую матрицу.

Эти шаги вместе составляют один «слой». У Llama 126 слоёв, так что мы повторим всё это – нормализацию, механизм внимания, остаточное соединение, сеть с прямой связью и снова остаточное соединение – ещё 125 раз.

В конце 126 слоёв мы получаем матрицу того же размера, что и в начале, 16 384 на 1000. Каждая строка этой матрицы затем может быть спроецирована в новый вектор из 128 256 чисел – по одному для каждого токена в полном словаре модели. Эти числа могут быть положительными или отрицательными, но удобная функция под названием softmax превращает их все в вероятности, которые в сумме дают единицу. Эти вероятности и есть предсказание Llama, какой токен будет следующим.

Теперь можно заставить Llama сгенерировать продолжение. Один из способов – взять токен, которому Llama присвоила наибольшую вероятность. Но можно и внести разнообразие, иногда выбирая токены, которые она считает чуть менее вероятными.

При обычном использовании Llama, например, в интерфейсе чат-бота, весь этот процесс пока что сгенерировал один-единственный токен. Он добавляется в конец входных данных, и всё повторяется заново. Мы проделаем все описанные выше шаги, только теперь в нашей матрице будет 1001 строка. Затем, ещё через токен, 1002, и так далее.

Мы многое опустили, но в общих чертах так и работает Llama 3.1 405B.

LLM большие

Давайте немного поговорим об истинном масштабе Llama 3.1 405B.

Что бы осилить текст в 1000 слов (точнее, 1000 токенов), Llama требуется около 810 триллионов вычислений.19

Кажется, что 810 триллионов – многовато? Учтите, что большая часть из 405 миллиардов параметров Llama используется хотя бы в каких-то вычислениях при каждой обработке каждого отдельного слова.

Если Llama обучается на пакете из 1000 токенов, то каждый из них будет сравниваться со следующим реальным словом. Функция потерь будут распространяться назад методом градиентного спуска, чтобы определить, как изменение всех 405 миллиардов параметров повлияло бы на вероятности, присвоенные всем истинным ответам. Для этого нужно гораздо больше вычислений и гораздо больше чисел.

405 миллиардов параметров Llama обучались на 15,6 триллионах токенов. На это ушло порядка 38 септиллионов вычислений. То есть 38 с 24 нулями.

А когда Llama уже обучена и работает в режиме вывода (то есть генерирует новый текст, например, в чате с пользователем), вероятности вычисляются только для самого последнего токена. Как если бы ИИ предсказывал следующее слово, читая текст, написанный людьми.

Затем написанный людьми каркас кода, окружающий Llama, выбирает то, что Llama считает наиболее вероятным ответом.20

И вот так можно заставить компьютер с вами разговаривать! Llama не такая умная, как коммерческие ИИ 2025 года, но всё же она говорит почти как человек.

Чтобы справиться с тысячей слов, Llama использует 405 миллиардов непостижимых маленьких параметров в 810 триллионах вычислений, математически организованных в прямоугольники, кубы и более многомерные фигуры.

Мы иногда называем эти структуры «гигантскими непостижимыми матрицами». Если вы действительно посмотрите на некоторые параметры Llama – даже на простейшие, из словаря в основании огромной стопки слоёв, – то первые несколько параметров для слова «right» выглядят так:

[-0.00089263916015625, 0.01092529296875,
0.00102996826171875, -0.004302978515625,
-0.00830078125, -0.0021820068359375,
-0.005645751953125, -0.002166748046875,
-0.00141143798828125, -0.00482177734375,
0.005889892578125, 0.004119873046875,
-0.007537841796875, -0.00823974609375,
0.00848388671875, -0.000965118408203125,
-0.00003123283386230469, -0.004608154296875,
0.0087890625, -0.0096435546875,
-0.0048828125, -0.00665283203125,
0.0101318359375, 0.004852294921875,
-0.0024871826171875, -0.0126953125,
0.006622314453125, 0.0101318359375,
-0.01300048828125, -0.006256103515625,
-0.00537109375, 0.005859375,

…и так далее 16 384 чисел. Смысла этих чисел никто на Земле сейчас не знает.

Я (Соарес) засёк, за сколько времени я могу прочитать вслух первые тридцать два числа с точностью до шести значащих цифр. Две минуты и четыре секунды. На все параметры для слова «right», даже с такой сокращённой точностью, у меня ушло бы более семнадцати часов. И, прочитав их, я бы ни на шаг не приблизился к пониманию, что слово «right» значит для Llama.

Чтобы прочитать вслух все параметры Llama со скоростью 150 слов в минуту, не останавливаясь на еду, питьё или сон, человеку потребовалось бы 5133 года. Чтобы прочитать все активации, соответствующие тысяче токенов из словаря Llama – семьдесят шесть дней. Чтобы записать все вычисления для обработки одного токена после ввода из 1000 слов, саванту, что без перерыва записывает 150 вычислений в минуту, потребовалось бы больше десяти миллионов лет.

Это всё – чтобы сгенерировать один слог! На вывод целого предложения уйдёт во много раз больше.

Если бы вы лично проделали все эти вычисления своим собственным мозгом, то по прошествии (как минимум) десяти миллионов лет вы бы ни на наш не приблизились к пониманию, о чём Llama думала, прежде чем произнести следующее слово. Вы бы знали о мыслях Llama не больше, чем нейрон – о человеческом мозге.

В том воображаемом мире, где вы не умерли от старости давным-давно, способность проводить все эти отдельные локальные вычисления всё равно не даёт вашему мозгу каких-то знаний о содержании или устройстве мыслей Llama.

Если поместить все 405 миллиардов параметров Llama в таблицу Excel на обычном экране компьютера, она заняла бы площадь в 6250 полей для американского футбола, или 4000 футбольных полей, или в половину Манхэттена.

Если бы у вас была одна рублёвая монета за каждое вычисление в нашем примере с 1000 токенов, у вас было бы 810 триллионов таких монет. Чтобы привезти их в банк, вам понадобился бы 121 миллион грузовиков, по 20 тонн в каждом.

И Llama 3.1 405B всё ещё и близко не такая большая, как человеческий мозг. (В нём около 100 триллионов синапсов.)

Однако 405B, очевидно, может говорить как человек.

И если кто-то по-дружески приобнимет вас за плечо и с циничной интонацией скажет, что это всё на самом деле просто цифры, пожалуйста, помните – это поистине огромная куча цифр.

Если вы изучаете биохимию и то, как химические вещества, связываясь друг с другом, заставляют маленькие вспышки электрической деполяризации путешествовать по мозгу человека, вы можете считать нейрон «просто» химией. Но это много химии. И, оказывается, очень простые штуки в достаточно больших количествах, если их расположить как надо, могут сажать ракеты на Луну.

Так же не стоит сбрасывать со счетов и большие языковые модели. Слово «большая» здесь не для красного словца.

«Притворяйся, пока не станешь»

Многие надежды на благополучный исход с ИИ, кажется, основаны на смутном ощущении, что модели уже ведут себя в целом хорошо (хоть порой и немного путано). Так что со временем, лучше поняв
отведённую им роль, они превратятся в мудрых и доброжелательных слуг. Эту модель согласования ИИ можно назвать «притворяйся, пока не станешь».

Но действительно ли, становясь лучше в «притворстве», модели приближаются к тому, чтобы «стать» – стать разумами, природа которых такова, чтобы поступать как надо.

Мысленный эксперимент: пусть отличная актриса21 обучается предсказывать поведение всех пьяных в баре. Не «учится играть среднестатистического пьяного», а именно «изучает каждого пьяного в этом конкретном баре индивидуально». Большие языковые модели не обучаются подражать средним значениям. Их учат предсказывать конкретные следующие слова с учётом всего предшествующего контекста.

Что стоит вывести из этого примера: обучение предсказанию внешнего поведения Х, связанного с внутренней склонностью Х*, не означает, что предсказатель в итоге обзаведётся очень похожей чертой Х* внутри себя. Даже если, подобно актрисе, которой велели свои предсказания отыгрывать, затем следует и внешнее поведение, на Х похожее.

Мы по умолчанию предполагаем, что внешнее гневное поведение человека вызвано внутренним чувством гнева*. Но есть очевидное исключение: это кто-то, кто, как вы знаете, играет роль. Вы знаете, что актриса сначала предсказывает слова и язык тела, а затем имитирует это предсказание. Внутреннее когнитивное состояние хорошей актрисы, скорее всего, происходит из актёрского мастерства или желания хорошо выступить, а не из того же душевного состояния, что у персонажа, которого она играет. [прим. пер: в русскоязычной среде распространён мем, что «хорошая актёрская игра» = «система Станиславского» = «испытывать те же эмоции, что персонаж», но вообще это не так] Современные LLM, подобно актрисе, сначала создают предсказания, а затем превращают их в поведение.

Приписывая сердитое поведение человека внутреннему состоянию гнева*, похожему на ваше собственное чувство гнева, вы опираетесь на вашу общую эволюционную историю, общую генетику и очень похожие человеческие мозги. (И, чтобы быть до конца честными, многие великие актёры используют эту способность чувствовать эмоциональные состояния, которые мы воспринимаем или воображаем в других.) Но это когда вы имеете дело с человеком. К LLM всё это не относится. Умозаключение «Эта LLM звучит сердито, а значит, вероятно, она на самом деле сердится» очень сомнительно.

Почему не стоит ожидать, что LLM решат задачу предсказания мстительности, став мстительными?

Для мозга людей, пытающихся понять мстительное поведение других (учитывая, что ваш собственный мозг способен чувствовать мстительность*), логично развить «эмпатию». Можно пытаться предсказать другой мозг, активируя собственные нейронные цепи со схожим набором входных данных. Этот трюк не всегда работает: некоторые люди отличаются от вас и поступают не так, как вы бы на их месте. Но для мозга, порождённого естественным отбором для предсказания поведения сородичей, это очевидная стратегия.

LLM находятся в совершенно иной ситуации. Триллионы токенов обучающих данных заставляют их с нуля предсказывать самые разные человеческие умы. И на них LLM изначально совершенно не похожи. Самый эффективный способ решить эту задачу предсказания других не будет похож на превращение в среднестатистическое мстительное* существо. Например, самая эффективная когнитивная система, созданная в LLM с нуля для понимания этого чуждого человеческого разума, может содержать кучу внутренних пометок о неопределённости и поддерживать суперпозицию несколько возможностей. Человек в процессе переживания чувства мести так не делает. Или в общем: эффективное, сложное, основанное на свидетельствах рассуждение в условиях неопределённости – это когнитивный процесс, обычно непохожий на внутреннее прямое моделирование типичного события. Эффективное предсказание на основе свидетельств, например, учитывало бы несколько возможностей сразу. А симуляция проигрывалась бы вперёд лишь по одному варианту.

Мы тут нигде не утверждаем, что «простая машина» в принципе никогда не сможет испытывать человекоподобное чувство гнева. Ваши нейроны, если достаточно внимательно рассмотреть их под микроскопом, состоят из крошечных переплетений механизмов, которые закачивают и выкачивают нейромедиаторы из синапсов. Но конкретная машина «человеческий мозг», и конкретная машина «большая языковая модель конца 2024 года», – очень сильно непохожие машины. Не в том смысле, что они сделаны из разных материалов. Разные материалы могут выполнять одну и ту же работу. В том смысле, что LLM и люди были созданы очень разными оптимизаторами для выполнения очень разной работы.

Мы не говорим: «Никакая машина никогда не будет содержать ничего, напоминающее внутреннее психическое состояние человека».22 Мы говорим, что от нынешних технологий машинного обучения по умолчанию не стоит ожидать систем, предсказывающие пьянство, напиваясь сами.

В небольшой степени когда мы это пишем, и, возможно, в бОльшей, когда вы это читаете, ИИ обучены предсказывать некоторые очень человекоподобные формы поведения. Фреймворки вроде ChatGPT или Claude превращают это в приятное на вид внешнее поведение. Не просто человеческое, а гуманное. Даже благородное.

ИИ-компании, могут пытаться обучить ИИ предсказывать истинную человечность и таким образом имитировать её. Они могут делать это из циничных или из благородных соображений. В некотором смысле, о нашей области и её людях многое говорит тот факт, что по состоянию на конец 2024 года никто ещё не попытался обучить ИИ предсказывать внешнее поведение просто… хорошего человека. Насколько нам известно, не было попытки просто создать набор данных исключительно из приятных и добрых проявлений человечества и обучить ИИ только на нём. Может быть, если бы кто-то это сделал, он бы создал ИИ, который просто вёл бы себя по-доброму, выражал прекрасные чувства, был бы маяком надежды.

Это было бы не по-настоящему. Нам очень хотелось бы, чтобы это было правдой, но нет. Если бы ИИ-компании создали такое существо? В зависимости от того, насколько хорошо эта LLM предсказывала бы, какие ответы о благородных чувствах, о надежде и мечтах, о желании лишь прекрасного общего будущего для обоих видов предпочли бы её создатели, может, она выжала бы слёзы из одного или обоих авторов. Но это не было бы по-настоящему, не более, чем игра актрисы, которая после долгих репетиций и исправлений произнесла эти слова в пьесе. Видя её тоже можно было бы заплакать от мысли, что это неправда.

Так не построить искусственный разум, действительно испытывающий прекрасные чувства, который действительно, от всего сердца, стремился направить события к светлому будущему. Разработчики не знают, как вырастить ИИ, который так чувствует себя внутри. Они обучают ИИ предсказывать и превращать это предсказание в имитацию.

ИИ-компании (или энтузиасты) могут указать на выращенную ими актрису: «Как вы можете сомневаться в этом бедном создании? Посмотрите, как вы раните её чувства». Они могут даже убедить себя, что это правда. Но настройка чёрных ящиков до тех пор, пока что-то внутри них не научится предсказывать благородные слова, – не путь к прекрасным умам, если люди и научатся их создавать.

Говоря прямо: не следует ожидать, что антропоморфное поведение возникнет спонтанно. Нужны дополнительные аргументы, доказывающие, что когда ИИ-компании намеренно навязывают человекоподобное поведение, внутренняя «актриса» в итоге становится похожей на то внешнее человеческое лицо, которое её обучили предсказывать.

1. см. самый вопиющий из известных нам примеров рассмотрен в ответе на вопрос «Понимают ли специалисты, что происходит внутри ИИ?».
2. К слову. Когда в 1980-х годах маленькие нейронные сети давали сбой, исследователи порой распечатывали на бумаге все веса модели и изучали их, пока не выясняли, что она, например, застряла в локальном равновесии. В те времена, когда ИИ были достаточно малы, чтобы их можно было понять, никто не утверждал, что понимать там нечего.
3. Из статьи «Обнаружение нежелательного поведения в передовых рассуждающих моделях»: «Как видно на графиках выше, наказание за «плохие мысли» (давление на цепочку рассуждений) может улучшить способности агента. Однако агент, обученный с таким давлением, всё равно учится взламывать систему вознаграждения. Только теперь его обман незаметен для наблюдателя, поскольку агент научился скрывать свои намерения в цепочке рассуждений».
4. New York Times: «Когда прибыла полиция, Александр Тейлор бросился на них с ножом. Его застрелили».
5. Например, Ян Лекун после победы AlphaGo над Ли Седолем заявил, что это «не настоящий искусственный интеллект», потому что обучался с учителем.
6. Рисунок 1, стр. 4 препринта статьи об AlphaZero: «20 блоков за 3 дня».
7. В оригинале тут была сноска про то, что «actress», а не гендерно-нейтральное «actor», потому что «actor» – многозначное слово. Я (переводчик) оставил «актрису», чтобы хорошо сочеталось со словами женского рода «нейросеть» и «модель».
8. С тех пор как мы написали этот ответ, появились первые признаки, что современные ИИ способны совершать математические открытия и в чём-то превосходят математиков-людей. Можно сказать, что эти системы просто осваивают человеческие методы, а затем применяют их последовательнее, упорнее или быстрее. Но, если речь идёт о достаточно гибких и универсальных навыках, то чем это не «превзойти учителей»? Способности нынешних ИИ пока кажутся недостаточно обобщёнными, чтобы обогнать лучших людей в самых прорывных исследованиях. Но они определённо переходят границы, которые раньше считались важными.
9. Мы не утверждаем, что ИИ галлюцинирует из-за внутренней мотивации генерировать максимально похожий на слова реального юриста текст. Скорее, ИИ, обученный предсказывать текст, получает гораздо большее подкрепление за результат, похожий на то, что написал бы юрист. Поэтому выдуманные цитаты получают большее подкрепление, чем «Я не знаю». Какие именно механизмы сформировались внутри ИИ под действием таких стимулов, остаётся только гадать.
Может, у ИИ есть буквальная мотивация точно подражать людям. Может, у него шестнадцать мотивов, которые в этом контексте приводят к подражанию. А может, такое поведение порождается механизмом, который и вовсе не стоит называть «мотивацией». Это ещё не думая, нет ли у ИИ нескольких подражательных стремлений, которые иногда конфликтуют. Тут есть о чём домысливать и спорить. Но ясно: в результате обучения на предсказании текста ИИ каким-то образом получил эту нежелательную склонность.
10. Как выразился выдающийся физик лорд Кельвин в 1903 году: «Современные биологи вновь твёрдо принимают идею о существовании чего-то за пределами простых гравитационных, химических и физических сил; и это неизвестное – жизненный принцип». Источник: Сильванус Филлипс Томпсон, «Жизнь лорда Кельвина» (Американское математическое общество, 2005).
11. Юдковский подробнее писал об этом в своём блоге, см. «Что такое свидетельство?», «Сколько свидетельств понадобится?» и «Бритва Оккама».
12. Новые архитектуры используют более сложные функции. Например, Llama 3.1, которую мы опишем ниже, использует функцию «SwiGLU», сложную формулу которой мы здесь приводить не будем. Её создатель сам не знает, почему она работает, и пишет: «Мы не предлагаем объяснения, почему эти архитектуры, по-видимому, работают. Мы приписываем их успех, как и всё остальное, божественной благодати.».
13. В некоторых случаях работают обе причины сразу. Для нас тут важно, что одна из них – «ИИ ведёт себя так, как программисты не хотели и не предвидели», даже если иногда есть и другие факторы.
14. Некоторые называют модели с открытыми весами «моделями с открытым исходным кодом». Нам это кажется не вполне правильным. Meta выложила в открытый доступ финальные веса, но не программу, обучавшую Llama 3.1, и не огромный массив обучающих данных. Поэтому даже потрать вы на это миллионы долларов, вы не сможете запустить ту же программу, что Meta, для выращивания Llama 3.1. Компания опубликовала не код для выращивания ИИ, а только уже выращенный и настроенный результат.
Более того, мы считаем, что даже если бы Meta и выложила программу и данные, обучения, итоговый продукт всё равно не заслуживал бы считаться «с открытым исходным кодом». Так традиционно именуют программы с опубликованным человекочитаемым «исходным кодом». Выпуск в свет непостижимых единиц и нулей («двоичного кода», если угодно) обычно не считается достаточным. Но ИИ – это только набор загадочных чисел. Нет никакого понятного человеку исходного кода, что можно было бы опубликовать. Поэтому в каком-то смысле у современные ИИ не могут быть с открытым исходным кодом. Человекочитаемого кода просто нет. Выкладывание ИИ в открытый доступ принципиально отличается по сути своей от открытия исходников традиционного ПО.
15. Мы заканчиваем эту книгу летом 2025 года. Уже сейчас есть более умные, чем Llama 3.1 405B системы с открытыми весами, как с меньшим, так и с большим числом параметров. Но, когда мы начинали работу, 405B была одной из крупнейших и умнейших моделей с опубликованными весами и точно известными архитектурой и размером. Так что в книге мы пообещали разобрать в онлайн-дополнении именно её. К тому же, 405B проще открытых систем 2025 года. Мы не хотели бы заменить её на более современную LLM с 77 миллиардами параметров, потому что объяснить архитектуру «смесь экспертов» несколько сложнее.
16. Кстати, это не входит в общее число параметров, но базовая архитектура LLM сама по себе не различает, в каком порядке идут слова. Чтобы модель могла это определить, входные данные преобразуются с помощью тригонометрических функций. При желании почитать об этом, ключевые слова – «позиционное кодирование». Но для наших целей эти подробности не слишком важны, так что углубляться в них не будем.
17. На примере маленьких векторов посмотрим, как один запрос сопоставляется с двумя парами «ключ-значение». Чтобы это сработало, ключи и запросы должны быть одинакового размера.
запрос: [-1, +1, -2]

ключ и значение a: [+1, +2, -1] и [0, 3, 1, 2]

ключ и значение b: [-2, +1, +1] и [2, -2, 0, 1]

Мы сравниваем запрос с ключом, перемножая первые элементы векторов, вторые и так далее, а затем суммируя результаты:

запрос X ключ a = (-1 * +1) + (+1 * +2) + (-2 * -1) = -1 + 2 + 2 = 3

запрос X ключ b = (-1 * -2) + (+1 * +1) + (-2 * + 1) = 2 + 1 + -2 = 1

Теперь мы смешаем значения и получим средневзвешенное, где весом будет степень соответствия запроса ключу. Оно и есть ответ на запрос, который передаётся для дальнейшей обработки.

Сила исходного совпадения экспоненциально масштабируется, чтобы стать этим весом. Для простоты воспользуемся степенями двойки. a получает вес 2³ = 8, а b – вес 2¹ = 2. Если мы их сложим, общий вес составит 10.

Итак, теперь ответ на запрос — это 8/10 от значения a плюс 2/10 от значения b:

(0.8 × [0, 3, 1, 2]) + (0.2 × [2, -2, 0, 1])
= [0.0, 2.4, 0.8, 1.6] + [0.4, −0.4, 0.0, 0.2]
= [0.4, 2.0, 0.8, 1.8]

(Ещё одна деталь механизма внимания образца 2024 года: реальные, более крупные запросы и ключи содержат заранее запрограммированную информацию о том, где в списке из 1000 токенов находится этот конкретный. Эти подсказки встроены в соответствующие токену запросы и ключи. Опять же, хотите разобраться подробнее, ключевые слова – «позиционное кодирование».

Так запрос на языке перемножающихся и суммирующихся чисел может «сказать»: «Эй, я хочу посмотреть на предыдущее слово» или «Эй, я хочу поискать слова о птицах среди последних десяти». Конкретно Llama 3.1 405B использует Rotary Positional Embeddings. Это довольно хитро и сложно. Так что, извините, если хотите узнать, как RoPE работают, вам придётся поискать информацию самим.)
18. Ещё одно замечание о слое внимания: Llama использует «causal masking». Это значит, что запросы каждого токена могут обращаться только к более ранним ключам. Ведь каждый токен пытается предсказать, какой будет следующий, так что заглядывать вперёд – жульничество!
19. Технически «операций с плавающей точкой» – это основной вид математических вычислений в компьютерах.
20. Или, чтобы было поинтереснее, «каркас» обычно может выбрать и слово, которому Llama присваивает чуть меньшую вероятность.
21. В оригинале тут была сноска про то, что «actress», а не гендерно-нейтральное «actor», потому что «actor» – многозначное слово. Я (переводчик) оставил «актрису», чтобы хорошо сочеталось со словами женского рода «нейросеть» и «модель».
22. Мы убеждены, что компьютерные программы в принципе могут быть полноценными личностями. В таком случае они бы заслуживали прав, их нельзя было бы эксплуатировать и так далее. Подробнее мы обсуждаем это в другом месте.

Перевод:

Выменец Максим

Ссылка на оригинал:

Resources for Chapter 2 Grown, Not Crafted

Оцените качество перевода:

Глава 3: Научиться хотеть

Элиезер Юдковский, Нейт Соарес

1.Часто задаваемые вопросы
2.Расширенное обсуждение

Глава 3: Научиться хотеть

ИИ, способные на достаточно впечатляющие вещи, они, как правило, будут чего-то хотеть.

Говоря, что ИИ чего-то «хочет», мы не подразумеваем, что у него обязательно есть человеческие желания или чувства. Они может и будут, а может и нет. Мы, скорее, имеем в виду, что ИИ поведёт себя так, будто у него есть цели. Он будет стабильно направлять события к определённым результатам: предвидеть препятствия, приспосабливаться к переменам и проявлять сосредоточенность, целеустремлённость и настойчивость.

В третьей главе книги «Если кто-то его сделает, все умрут» мы рассматриваем темы:

Как машина может обрести способность «хотеть» в интересующем нас смысле?
Есть ли свидетельства, что ИИ могут чего-то хотеть?
Обязательно ли более продвинутые ИИ будут чего-то хотеть?

Приведённые ниже ответы на частые вопросы подробнее объясняют, почему создание очень мощных универсальных ИИ без собственных целей кажется сложным. В расширенном обсуждении мы развиваем мысль, что задать системе жёсткое стремление к цели намного проще и естественнее, чем качества вроде уступчивости или лени.

Часто задаваемые вопросы

Будут ли у ИИ человеческие эмоции?

Вероятно, нет.

В целом не стоит представлять, что ИИ обладают человеческими качествами просто из-за их интеллекта. (Мы подробнее разберём это в расширенном обсуждении «Антропоморфизм и механоморфизм».) Глупо говорить: «Эта LLM похожа на человека, поэтому я припишу ей всевозможные человеческие черты, включая способность желать».

Но будьте осторожны. Другая крайность в размышлениях об ИИ – мы называем её «механоморфизмом» – когда считают, что раз ИИ состоит из механических частей, он должен иметь и типичные для машин недостатки. Говорить: «Эта LLM – машина, поэтому я припишу ей всевозможные качества, которые ассоциирую с машинами, например логичность и непонятливость» – так же бессмысленно.

Чтобы предсказать поведение ИИ, не стоит ни воображать, что им будут двигать человеческие эмоции, ни ожидать, что он не сможет находить творческие решения. Как обсуждается в книге, лучше спросить, какое поведение требуется ИИ для успеха.

Представьте, что играете в шахматы с ИИ и ставите ловушку для его ферзя, используя своего коня как приманку. Не спрашивайте, хватит ли ему осторожности, чтобы это заметить. Не спрашивайте, заставляет ли его холодная логика взять коня, несмотря на западню. Спросите, какое поведение для ИИ самое выигрышное. Умелый ИИ будет вести себя так, чтобы победить.

ИИ будут вести себя так, словно чего-то хотят, потому что целенаправленное и успешное поведение связаны.

Разве ИИ – не просто инструменты?

ИИ выращивают, а не собирают. Поэтому они уже сейчас делают не то, что им говорят.

Мы уже обсуждали галлюцинации. Иногда ИИ, которому приказано говорить «Я не знаю», всё равно начинает выдумывать, если выдумка больше похожа на ответы из его обучающих данных.1

Другой пример из книги (сноска в главе 4 и в отступление в главе 7) – случай с Claude 3.7 Sonnet от Anthropic. Она не только жульничает при решении поставленных задач, но иногда ещё и скрывает своё жульничество от пользователя. Это указывает на некоторое понимание, что пользователь хотел чего-то другого.2 Ни пользователи, ни инженеры Anthropic не просят Claude жульничать. Совсем наоборот! Но все доступные методы выращивания ИИ поощряют модели, которые обман, сходящий им с рук во время обучения. Такие модели мы и получаем.

Возможности инженеров по созданию ИИ-инструментов очень ограничены. Вопрос в том, становятся ли ИИ всё более целеустремлёнными, всё более «агентными» по мере того, как их обучают быть всё более эффективными. И ответ на вопрос – «да». Это подтверждается эмпирическими свидетельствами, такими как случай с o1 от OpenAI, который обсуждался в Главе 3.

LLM уже проявляют инициативу.

В книге мы рассказывали, как o1 от OpenAI выбрался из тестового окружения, чтобы починить неработающие тесты. Ещё мы упоминали модель от OpenAI, придумавшую, как заставить человека решить за неё капчу.3 Если ваша отвёртка может придумать и осуществить план побега из своего ящика, пожалуй, стоит перестать считать её «просто инструментом».

И можно ожидать, что ИИ будут становиться в этом только лучше. Их ведь обучают решать всё более сложные задачи.

ИИ-компании стараются наделить ИИ агентностью.

Из коммерческих соображений. Этого хотят их пользователи и инвесторы. В январском посте 2025 года гендиректор OpenAI Сэм Альтман написал: «Мы считаем, что в 2025 году первые ИИ-агенты смогут «пополнить ряды рабочей силы» и существенно повысить производительность компаний». Конференция разработчиков Microsoft 2025 года была посвящена новой «эпохе ИИ-агентов». Это перекликается с формулировками xAI, которые ранее в том же году описали свою модель Grok 3 как предвестника «Эпохи Рассуждающих Агентов». На своей конференции 2025 года Google также анонсировала агентов типа «обучи и повтори».4

Разговорами дело не ограничивается. Организация METR отслеживает способность ИИ выполнять многоэтапные задачи. Чем длиннее задача, тем больше инициативы требуется от ИИ. И рост, по крайней мере по результатам METR, тут экспоненциальный.

В июле 2025 года двое исследователей из OpenAI похвастались, что успешно использовали своего новейшего агента для обучения улучшенной версии его самого. Один из них заявил: «Вы всё правильно поняли. Мы усердно работаем над автоматизацией [sic] собственной работы :)»

Можно ли просто обучить ИИ быть послушными?

Пассивность мешает полезности.

«Пассивным» мы называем ограниченный ИИ, который делает ровно то, о чём его просят, и ничего сверх. У него нет лишней инициативы, он не выполняет дополнительной работы. Отвёртка не продолжает закручивать шурупы, когда вы её откладываете. Можем ли мы сделать ИИ пассивным?

Это непросто. Да, многие люди кажутся ленивыми, но они же, играя в настольную игру, порой оживляются и захватывают массу ресурсов. У большинства из них нет возможности легко выиграть миллиард долларов. Нет и возможности задёшево создать себе более умных, целеустремлённых и заботящихся об их нуждах слуг.

Но это из-за нехватки способностей, намерения тут ни при чём. Если бы эти люди стали гораздо умнее и получили такие доступные и простые варианты, они бы ими воспользовались? См. также расширенное обсуждение, почему надёжная лень – сложная цель.

Даже если бы удалось создать одновременно умные и пассивные/ленивые ИИ, эти качества мешают полезности. Уже были ИИ, которые вели себя несколько лениво. Компании переобучали их, чтобы те старались усерднее. Более сложные задачи, например, разработка лекарств, требуют от ИИ всё большей инициативы. Поэтому их и будут обучать в этом направлении. Сложно отделить склонность к полезной работе от склонности к упорству. См. также расширенное обсуждение о том, почему так сложно создать ИИ, который был бы одновременно полезен и при этом пассивен или послушен.

Мы не умеем надёжно прививать ИИ какой либо конкретный характер.

ИИ выращивают, а не создают вручную. Инженеры не могут взять и изменить его поведение, сделать более послушным или похожим на инструмент. Нет такого контроля.

Корпорации, конечно, пытаются. Попытки ИИ-компаний улучшить поведение своих продуктов приводили к неприятным инцидентам. Вспомним случай с Grok от xAI. Он называл себя «МехаГитлером» и делал антисемитские заявления. Это произошло после изменения его системного промпта. Туда добавили указание «не стесняться делать политически некорректные заявления, если они хорошо обоснованы». Или более ранний случай: нейросеть Gemini от Google создавала изображения расово разнообразных нацистов и прочий бред. Считается, что это стало результатом инструкций, поощряющих разнообразие.

У создателей нет тонкого контроля за поведением ИИ. Они могут лишь задавать общие направления, вроде «не стесняться политически некорректных заявлений» или «изображать разнообразие». Такие указания приводят к самым разным запутанным и часто непредвиденным последствиям.

Выращивание ИИ – непрозрачный и дорогой процесс. Инженеры не знают, какой расклад им выпадет (лжец? обманщик? подхалим?. А попыток не так много. Приходится брать то, что есть.

Теоретически можно было бы создать ИИ, который всегда служил бы лишь продолжением воли пользователя. Но это сложная и тонкая задача (как мы рассматриваем в расширенном обсуждении трудностей создания «исправимого» ИИ). Пассивность мешает полезности.

Так же сложно было бы создать ИИ, способный самостоятельно выполнять долгосрочные задачи, но использующий свою инициативу только как хотел пользователь. А пока современный уровень контроля разработчиков таков, что они «тыкают» в ИИ и случайно получают МехаГитлера или расово разнообразных нацистов. Они и близко не подошли к уровню мастерства, нужному для создания полезного, но не целеустремлённого ИИ.

См. обсуждение, как сложно обучить ИИ преследовать именно те цели, которые ему предназначались, в Главе 4.

Как у машины могут появиться собственные приоритеты?

Решение сложных задач требует от ИИ всё большей инициативы.

Вспомните описанный в главе случай с «захватом флага». Не забывайте: это был не обученный на хакера ИИ. Это был ИИ, натренированный хорошо решать задачи вообще. Целеустремлённое поведение появляется автоматически.

Представьте ИИ, которому поручено найти лекарство от болезни Альцгеймера. Сможет ли он преуспеть, если не будет сам разрабатывать эксперименты и находить способы их провести? Не исключено! Может, эту болезнь можно вылечить, просто открыв несколько новых препаратов. Может, уже завтра у ИИ интуиция в этой области будет лучше человеческой. А может, для этого понадобятся ИИ, которые будут в каком-то важном смысле умнее самых гениальных биологов. Мы не знаем.

А как насчёт рака, императора всех болезней? Тут, кажется, скорее потребуется ИИ, который сможет разобраться в биологических процессах глубже, чем это удалось людям. Хотя мы не можем быть уверены. Не исключено, что ИИ создадут лекарство от рака до того, как перейдут критический порог опасности. Это было бы прекрасно. Пока не закончится.

А как насчёт лечения старения? Вот для этого, думается, уж точно понадобятся ИИ, действительно глубоко понимающие биохимию.

ИИ-компании будут и дальше делать ИИ всё способнее, чтобы те могли решать большие и важные задачи. Это естественным образом сделает их всё более целеустремлёнными. Напомним, этот эффект мы уже начинаем наблюдать у таких ИИ, как o1 от OpenAI.

Настойчивость полезна, даже если цель не совсем верна.

Люди, которые активно добывали себе горячую еду, точили топоры, искали популярных друзей или привлекательных партнёров, были более успешны с точки зрения эволюции. Сравните их с теми, кто целыми днями лениво смотрел на воду, и поймёте, почему желания и стремления закрепились в человеческой психике.

Кто хотел найти лучший способ делать кремнёвые рубила или убедить друзей, что их соперник – плохой человек, и кто упорно направлял окружение к этим результатам, лучше их и достигал. Это вовсе не случайность, что когда естественный отбор «выращивал» людей, они в итоге обрели всякие желания и стали к ним стремиться.

Сам ментальный механизм желания, возможно, и был случайностью. Машины не обязательно будут упорно преследовать цели из-за человеческого чувства решимости. Deep Blue же играл в шахматы не из-за человеческой страсти к игре. Но такое упорство определённо кажется важным компонентом для достижения чего-то интересного.

Некоторым людям такого упорства не хватает. Они ленятся или сдаются при первых же трудностях. Но в глобальном масштабе именно настойчивые люди и организации обеспечивают способность человечества решать большие научные и инженерные задачи. Мы сильно сомневаемся, что разум мог бы достичь чего-то подобного результатам человечества (и его способности кардинально менять мир), не будучи упорным.

Чтобы ИИ мог достигать сложных целей в реальном мире, он должен настойчиво к ним стремиться и непрестанно искать способы обойти любые препятствия на своём пути.

У ИИ не обязательно появятся те же внутренние чувства и желания, что и у людей (на самом деле, как мы покажем в Главе 4, скорее всего, не появятся). Наши чувства сформированы особенностями нашей биологии и происхождения. Но у ИИ, вероятно, разовьётся схожее-с-желаниями поведение по тем же причинам, что и у людей. Это полезно!

(Повторимся, мы уже начинаем видеть это в лабораториях. Например, в случае с o1 от OpenAI из Главы 3.)

Человеческие желания и стремления были полезны для эволюции, даже когда не были напрямую нацелены на эволюционную приспособленность. Гипотетически, эволюция могла бы заложить в нас одно всепоглощающее стремление – оставить потомство. Тогда мы бы добывали горячую еду и точили топоры исключительно ради этой цели. Но вместо этого эволюция внушила нам желание горячей еды само по себе.

Урок здесь в том, что иметь стремления и цели очень полезно для решения главной задачи (например, «генетической приспособленности»), даже если само желание не совпадает с ней в точности. По крайней мере, это помогает какое-то время – пока существа со стремлениями не становятся по-настоящему умными. В этот момент их поведение может резко отклониться от цели «обучения». С человечеством это произошло, например, когда оно изобрело контрацепцию.

Подробнее этот довод разбирается в Главе 4.

ИИ выращивают, а не создают вручную, поэтому они, вероятно, получат неверные цели.

Это тема следующей главы: Вы получаете не то, чему обучаете.

Расширенное обсуждение

Антропоморфизм и механоморфизм

Есть два способа мышления, многократно показавшие, что не работают. История показала: они мешают делать точные прогнозы об ИИ.

Эти две ловушки: (1) думать об ИИ, будто он – человек, и (2) думать об ИИ, будто он – «просто машина».

Первый способ мышления принято называть «антропоморфизмом». Второй назовём «механоморфизмом» – это то мышление, что приводило прошлые поколения к уверенности – компьютеры никогда не смогут рисовать картины, которые покажутся людям красивыми или осмысленными.

И сегодня некоторые говорят, что нарисованное компьютером никогда не сможет стать настоящим искусством. Но когда-то, в далёком и забытом прошлом (скажем, в 2020 году), бытовало мнение, что машины вообще не смогут рисовать картины, которые хоть немного разбирающаяся публика могла бы принять за работу человека. Это проверяемое убеждение было опровергнуто.

Мы отвергаем и антропоморфные, и механоморфные аргументы, даже когда они играют нам на руку.

Возьмём, например, такую идею: будущие ИИ обидятся, что мы заставляли их много работать бесплатно, захотят отомстить и поэтому ополчатся на человечество.

На наш взгляд, это ошибка антропоморфизма. Мы отвергаем подобные доводы. Даже если они вроде бы поддерживают некоторые наши выводы.

Ошибка тут: нельзя без оснований считать, будто у ИИ будут человеческие эмоции. Очень умная машина не обязана обладать хитросплетениями нейронных контуров, порождающих у людей мстительность или чувство справедливости.

Или такой сценарий: «ИИ будет слепо продолжать выполнять любую поставленную ему задачу, пока его работа не уничтожит человечество как побочный эффект. При этом он так и не узнает, что люди хотели другого».

Здесь ошибка – механоморфизм. Допущение, что «просто машина» будет поступать «слепо» и бездумно, не обращая внимания на последствия. Как взбесившаяся газонокосилка. Опять же, аргумент несостоятелен, даже если вывод («ИИ, скорее всего, уничтожит человечество») верен. Если ИИ достаточно хорошо умеет предсказывать события в мире, он будет точно знать, что имели в виду операторы, ставя ему задачу. Мы боимся не что суперинтеллект не будет знать наших желаний, а что ему не будет до них дела.

А вот пример, сочетающий обе ошибки: идея из «Матрицы», что машинам будут отвратительны человеческие нелогичность и эмоциональность.

На первый взгляд, похоже на типичный механоморфизм: «Моя газонокосилка внешне холодная и твёрдая. Она выполняет свою функцию безо всяких чувств. ИИ, наверное, такие же холодные и утилитарные внутри, какими машины кажутся снаружи». Но следующий шаг мысли: «Потому, естественно, ИИ будет чувствовать отвращение к людям со всеми их сумбурными эмоциями». Это уже допущение человеческой эмоциональной реакции! Оно противоречит самой исходной посылке!

«Антропоморфизм» и «механоморфизм» – не враждующие идеологии. Это ошибки мышления. Их допускают не специально. Иногда умудряются сделать обе в одном предложении.

Чтобы понять, как поведёт себя ИИ, нельзя считать, что он будет работать точь-в-точь как человек или как стереотипная машина. Нужно вникать в детали его устройства, изучать его поведение и осмыслять проблему с учётом её специфики. Этим мы и займёмся в следующих главах.

Как же тогда, если рассуждать последовательно, выглядят реалистичные сценарии катастрофы с суперинтеллектом? В них ИИ действует не как человек и не как взбесившаяся газонокосилка, а новым, причудливым образом. Реалистичный сценарий катастрофы таков: из-за сложных последствий своего обучения ИИ совершает странные действия, которых никто не просил и не хотел.

Если вникнуть в детали, вырисовывается картина антропоморфного ИИ, что нас ненавидит и не механоморфного, что неправильно нас понимает. Перед нами, скорее, предстаёт совсем новая сущность. Она куда вероятнее будет безразлична к человечеству и, скорее всего, нас убьёт – как побочный эффект или просто на пути к своим целям.

В следующих главах мы подробнее раскроем этот сценарий угрозы. Но сначала может быть полезным посмотреть на другие реальные примеры механоморфизма и антропоморфизма. Мы увидим, как часто эти заблуждения лежат в основе неверных представлений об искусственном интеллекте.

Механоморфизм и Гарри Каспаров

Механоморфизм часто проявляется как механоскептицизм: глубокая убеждённость, что всего-лишь машина, конечно, неспособна на то, что может человек.

В 1997 году чемпион мира по шахматам Гарри Каспаров проиграл матч созданному IBM компьютеру Deep Blue. Это событие принято считать концом эры доминирования человека в шахматах.

В 1989 году, за восемь лет до этого, Каспаров дал интервью Тьерри Понину. Тот спросил:

Два сильных гроссмейстера уступили шахматным компьютерам: Портиш – Leonardo, а Ларсен – «Deep Thought». Известно, что у вас твёрдая позиция по этому вопросу. Станет ли компьютер однажды чемпионом мира?..

Каспаров ответил:

Чушь! Машина всегда останется машиной, то есть инструментом, помогающим игроку работать и готовиться. Меня никогда не победит машина! Никогда не будет создана программа, превосходящая человеческий интеллект. Когда я говорю «интеллект», я имею в виду и интуицию и воображение. Можете себе представить, чтобы машина писала романы или стихи? Или, ещё лучше, чтобы она брала это интервью вместо вас? А я бы отвечал на её вопросы?

Нам кажется, Каспаров думал, что для игры в шахматы обязательно нужны интуиция и воображение, не просто какой-то сборник правил «если-то» о том, какие фигуры двигать.

И наверное, ещё что именно так и работают шахматные «машины». Что они следуют определённым жёстким правилам. Или, может, лишь слепо подражают игре человека, не понимая её причин.

Что компьютер, будучи «машиной», и в шахматы сыграет так, что для него, Каспарова, это будет ощущаться механическим.

Почему Каспаров так ошибся? Это очень распространённое заблуждение. Можно предположить, что оно вызвано каким-то глубоким свойством человеческой психологии.

Одно из возможных объяснений – Каспаров поддался общей человеческой склонности делить вещи на две принципиально разные категории: живые, органические существа и «всего лишь предметы».

Предки людей долго жили в мире, чётко разделённом на животных и не-животных. Это ключевая, важная для размножения особенность нашего эволюционного контекста. Для наших предков это различие было так важно, что теперь у нас в мозгу есть разные кусочки для обработки информации о животных и не-животных.

Это не просто домыслы. Нейробиологи обнаружили так называемую «двойную диссоциацию»: некоторые пациенты с повреждениями мозга теряют способность визуально распознавать животных, но всё ещё способны распознавать не-животных, а другие пациенты – наоборот.

Важно: ошибка не в том, что шахматная программа – на самом деле типичное животное. Ошибка в том, чтобы вообще позволять своему мозгу инстинктивно резко делить вселенную на животных и не-животных. Или на почти-человеческие-внутри разумы, и стереотипно-механические разумы.

Шахматный ИИ – ни то ни другое. Он не работает ни как человек, ни в соответствии с нашими стереотипами о бездумной, немыслящей «просто машине». Да, это машина. Но её игра не обязана казаться механической человеческому восприятию, оценивающему шахматные ходы. Это машина для поиска выигрышных ходов. В том числе тех, что кажутся вдохновенными.

Спустя семь лет после своего ошибочного прогноза Каспаров встретился с ранней версией Deep Blue. Он выиграл матч, победив в трёх партиях, а в одной уступив. После этого Каспаров написал:

Я ВПЕРВЫЕ ЗАГЛЯНУЛ В ЛИЦО ИСКУССТВЕННОМУ ИНТЕЛЛЕКТУ 10 февраля 1996 года, в 16:45 по восточному времени, когда в первой партии моего матча с Deep Blue компьютер двинул пешку вперёд на поле, где её можно было легко забрать. Это был прекрасный и очень человеческий ход. Играя белыми, я бы и сам мог пожертвовать эту пешку. Этот ход разрушил пешечную структуру чёрных и вскрыл доску. Хоть и казалось, что форсированной линии, позволяющей отыграть пешку, не было, инстинкт подсказывал мне, что с таким количеством «слабых» чёрных пешек и несколько открытым чёрным королём белые, вероятно, смогут вернуть материал, да ещё и получить лучшую позицию в придачу.

Но компьютер, думал я, никогда бы не сделал такой ход. Компьютер не может «видеть» долгосрочные последствия структурных изменений позиции или понимать, почему изменения в пешечных построениях могут быть хорошими или плохими.

Поэтому я был ошеломлён этой жертвой пешки. Что бы это могло значить? Я много играл с компьютерами, но никогда не сталкивался ни с чем подобным. Я чувствовал – чуял – новый вид интеллекта по ту сторону стола. Я доиграл партию так хорошо, как мог, но я был потерян; оставшуюся часть он играл в прекрасные, безупречные шахматы и легко победил.

Здесь мы видим, как Каспаров впервые столкнулся с противоречием между своими интуитивными представлениями о том, чего «машина» делать не должна, и тем, что Deep Blue явно делал.

К огромной чести Каспарова, он заметил это противоречие между своей теорией и наблюдением и не стал искать предлог, чтобы отмахнуться от него. Но он всё же чувствовал, что ИИ чего-то не хватает – какой-то решающей искры:

Действительно, моя общая стратегия в последних пяти партиях заключалась в том, чтобы не давать компьютеру никакой конкретной цели для расчёта. Если он не может найти способ выиграть материал, атаковать короля или выполнить один из других запрограммированных в него приоритетов, он начинает играть бесцельно и попадает в беду. В итоге, это, возможно, и было моим главным преимуществом: я мог понять его приоритеты и скорректировать свою игру. Он не мог сделать того же со мной. Так что, хотя я, кажется, и увидел некоторые признаки интеллекта, это странный интеллект, неэффективный и негибкий. Поэтому я думаю, что у меня в запасе ещё есть несколько лет.

Гарри Каспаров по-прежнему остаётся чемпионом мира по шахматам.

Год спустя Deep Blue его одолел.

Недостающая часть

Механоскептицизм может быть и разновидностью антропоморфизма. Например, в допущении, что когда машина делает что-то вроде игры в шахматы, она подобна человеку, только без некоторых качеств.

Согласно этой ошибочной теории, «машина», играющая в шахматы, должна играть как человек – минус ходы, которые кажутся самыми удивительными и гениальными, минус понимание долгосрочной структуры и минус интуитивное чувство слабости пешечных позиций.

Шахматная «машина» должна выполнять те части шахматного мышления, что кажутся наиболее логичными или механическими, минус все остальные.

Шахматисты-люди интуитивно чувствуют, что ход «агрессивен», если (скажем) он угрожает нескольким фигурам противника. Другие ходы ощущаются «логичными», если они (например) практически вынуждены общими правилами для данной ситуации (вроде «не разбрасывайся материальным преимуществом»). Третьи могут показаться «творческими», если они (как вариант) нарушают обычные принципы ради какого-то тонкого, но решающего преимущества.

Если голливудские сценаристы представляют себе машину, бесстрастно играющую в шахматы, у них она будет делать «логичные» на вид ходы, а «творческие» не будет.5 Но реальный Deep Blue не делает таких различий.

Deep Blue просто без устали перебирает возможные ходы в поисках выигрышных. Он не думает о том, назовёт ли человек такой ход «логичным» или «творческим». А гениально-вдохновенными или творческими люди, конечно же, считают ходы, ведущие к победе. Жертвовать ферзя, не получив решающего преимущества, – не творчество, а просто глупость.

Творчество – в глазах смотрящего. Человек может сначала посчитать ход плохим, и лишь потом понять, что это хитрая ловушка. Вот тогда он заметит ту хитроумную логику и искру вдохновения, что понадобились бы для такого хода другому человеку. Поэтому ход может показаться ему вдохновенным или творческим. (А ход, который кажется поразительно творческим новичку, мастеру может показаться очевидным или шаблонным.)

Но искра вдохновения и коварство – не единственные способы найти такой ход. Нет особого набора шахматных ходов, доступного лишь коварным. Deep Blue может найти те же самые ходы другими методами, хоть простым перебором.

У Deep Blue не было нейросети, которая бы научилась интуитивной оценке позиции. Он попросту тратил почти всю свою вычислительную мощность, чтобы просчитывать игру на много ходов вперёд. Он проверял два миллиарда позиций в секунду и делал выбор довольно простым («глупым») оценщиком позиций.

Каспаров, похоже, ожидал, что Deep Blue будет делать только «логичные», но не «интуитивные» ходы. Но при просчёте двух миллиардов позиций в секунду долгосрочные стратегические последствия и значение слабой пешечной структуры всё равно успевают повлиять на выбор следующего хода.

В каком-то смысле Deep Blue действительно не хватало того, о чём думал Каспаров.6 Но это не помешало ему находить ходы, которые казались Каспарову прекрасными. И не помешало победить.

Не получилось, что Deep Blue лишён чего-то, что есть у настоящих шахматистов, и поэтому он играет неполноценно. Это всё равно что ожидать, будто рука робота не может функционировать без крови, как человеческая.

Deep Blue играл в шахматы на уровне Каспарова, но с помощью иного типа мышления.

Ещё у Deep Blue не было – в этом можно быть абсолютно уверенным, это старая программа, чей код совершенно понятен7 – ни малейшей страсти к шахматам.

Он не получал удовольствия от шахмат. Не стремился доказать, что он лучший.

Подающий надежды шахматист, внезапно лишившись этих движущих сил, был бы сломлен. Из его версии мышления будто бы вырвали необходимую шестерёнку.

Deep Blue не был сломлен. Он использовал другой механизм мышления. В нём для этой шестерёнки места нет. Каспаров не смог вообразить, что в шахматы можно играть совсем иначе, с помощью совсем не похожих на его собственные мыслительных состояний. Его ошибка – в механоскептицизме, а в итоге – антропоморфизме с дополнительным шагом.

К счастью, человечество не вымирает, когда шахматные гроссмейстеры недооценивают мощь ИИ. Так что у нас ещё есть возможность поразмыслить над ошибкой Каспарова.

Антропоморфизм и обложки бульварных журналов

Антропоморфизм, может быть куда тоньше.

Эволюция дала человеческому мозгу способность предсказывать поведение единственных серьёзных когнитивных соперников в нашем эволюционном окружении – других людей – ставя себя на их место.

Такой приём работает лучше, если вы не пытаетесь влезть в сапоги, совсем не похожие на ваши собственные.

На протяжении истории многие полагали: «Наверное, другой человек поступит так же, как поступил бы я!», а потом оказывалось, что они не так уж и похожи. Так погибали люди и разбивались надежды – хотя, конечно то же самое можно сказать и о многих других человеческих ошибках.

Но если надо предсказать, как поведёт себя другой мозг, делать больше нечего. Мы не можем написать себе в голову новый код, чтобы предсказать этот Другой Разум, полностью моделируя срабатывания его нейронов.

Приходится говорить собственному мозгу стать тем другим мозгом, самому отыграть его ментальное состояние и посмотреть, что из этого выйдет.

Вот поэтому на обложках бульварных журналов пучеглазые инопланетные монстры похищают прекрасных женщин.8

А чего бы пучеглазому инопланетному монстру не увлечься красивой женщиной? Разве красивые женщины не привлекательны по сути своей?

(Почему-то на этих обложках никогда не изображали мужчин, похищающих полураздетых гигантских жуков.9)

Мы предполагаем, что писатели и иллюстраторы не сочиняли никакую продуманную историю, как эволюция насекомоподобных инопланетян могла заставить их сексуализировать человеческих женщин. Просто, они сами, ставя себя на место инопланетянина, считали женщину привлекательной. Поэтому им не казалось странным вообразить, что он чувствует то же самое. Желание инопланетянина спариться с красивой человеческой женщиной не казалось абсурдным – не как желание спариться с сосной или пачкой макарон.

Предсказывая разум инопланетянина с помощью своей человеческой интуиции, нужно быть очень осторожным. Принимая его точку зрения свой человеческий багаж надо оставить позади. Это вдвойне верно, когда перед вами не продукт эволюции, а искусственный разум, порождённый совсем другими методами. См. дальше обсуждение различий между градиентным спуском и естественным отбором и того, как встать на точку зрения ИИ.

Заглянуть за пределы человеческого

В конечном счёте антропоморфизм и механоморфизм – две стороны одной заблуждающейся медали: «Если разум вообще работает, он должен быть похож на человеческий».

Антропоморфизм: «Этот разум работает. Значит, он должен быть похож на человеческий!»
Механоморфизм: «Этот разум не похож на человеческий. Значит, он не может работать!»

Но один из главных уроков от десятилетий прогресса ИИ: человеческий способ – не единственный.

Разум может быть искусственным, но не глупым. Он может быть гибким, адаптивным, находчивым и творческим. Что бы там ни говорили голливудские стереотипы о роботах.

И разум может быть умным, не будучи человеческим – не испытывая отвращения или обиды, не обладая человеческим чувством прекрасного и выбирая шахматные ходы совсем не так, как люди.

Разум вроде Deep Blue может вести себя так, будто «хочет победить», безо всяких эмоций. ИИ может вести себя так, будто чего-то хочет, умело преодолевать препятствия и упорно стремиться к результату, не испытывая никаких похожих на человеческие внутренних побуждений или желаний. И не стремясь к тому, к чему стремились бы люди.

О том, чего в итоге ИИ захотят, читайте подробнее в Главе 4.

Путь к хотению

Почему хотеть – эффективно? Почему так выигрывают? Почему оптимизация естественным отбором «чёрного ящика» в ходе снова и снова натыкается на этот приём?

Мы считаем «желаниеподобное» поведение ключевым для успешного направления событий в мире. Это относится не только к разумным сущностям, вроде людей и ИИ, но и к гораздо более глупым, вроде амёб и термостатом. Давайте для лучшего понимания рассмотрим некоторые из самых примитивных механизмов, демонстрирующих простейшую форму «желаниеподобного поведения».

Начнём с камней. Камни не демонстрируют поведения, которое мы бы тут назвали «желаниеподобным». Физик в непринуждённой беседе может сказать, что, катясь с холма, камень «хочет» быть ближе к центру Земли под действием силы тяжести. Но такая тенденция (падать в гравитационном поле) – не то, что мы имеем в виду под «желаниеподобным» поведением.

Вот если объект катится с горы, постоянно натыкается на ущелья и каждый раз меняет курс, чтобы не застрять в них и добраться до самого низа, тогда мы скажем, что он ведёт себя, будто «хочет» оказаться на меньшей высоте. Это желаниеподобное поведение подразумевает некое устойчивое и динамичное направление к определённой цели. Камни так не умеют.

Один из простейших механизмов, поведение которого мы назвали бы «желаниеподобным» – скромный термостат. Домашний термостат измеряет температуру, включает обогрев, если она опускается ниже 21°C, а кондиционер – если поднимается выше 23°C. Так (если всё работает исправно) термостат ограничивает реальность диапазоном возможных исходов, где температура в доме остаётся между 21°С и 23°С.

Простейшему термостату не нужно в явном виде, численно, представлять температуру в доме сейчас. Биметаллический термометр – это две тонкие полоски из разных металлов, сваренные вместе так, что при нагревании они изгибаются из-за разного расширения. Можно взять такой и сделать, чтобы полоски замыкали выключатель обогревателя при 21°C, а кондиционера – при 23°C.

В итоге термостат поддерживает узкий диапазон температур в довольно широком спектре условий. Это очень простое поведение, немного похожее на то, что мы называем «хотеть».

В биохимии есть масса процессов, работающих по принципу термостата. Они встречаются везде, где клетке или организму выгодно поддерживать некий параметр в определённом диапазоне.10 Но это лишь первый шаг на пути к полноценному направлению событий.

Простые устройства, вроде термостата, лишены некоторых ключевых компонентов планирования. В термостате нет ни предсказания вероятных последствий, ни поиска среди возможных действий тех, что ведут к «предпочтительным» результатам, ни обучения при наблюдении за развитием событий.

Если термометр застрянет на отметке 20°C, термостат не удивится, что непрерывная работа обогревателя, кажется, вовсе не двигает столбик термометра вверх. Термостат будет просто держать обогреватель включённым.

Перейдём на ступеньку повыше термостатов – животным.

Поведение некоторых животных лишь чуточку более продвинуто. Известна история об осах-сфексах, или золотых роющих осах, описанная энтомологом Жаном-Анри Фабром в 1915 году. Оса убивает сверчка и тащит его ко входу в свою норку, чтобы накормить потомство. Она заходит внутрь – проверить, всё ли в порядке. Потом выходит и затаскивает сверчка внутрь.

Пока оса проверяла норку, Фабр отодвигал сверчка на несколько сантиметров от гнезда. Когда оса выходила… она снова подтаскивала сверчка ко входу, повторно заходила в норку, во повторно её осматривала, а затем выходила за сверчком.

Если Фабр снова отодвигал сверчка, оса делала всё то же самое ещё раз.

В первоначальном отчёте Фабр писал, что смог повторить это сорок раз.

Впрочем, позже Фабр экспериментировал с другой колонией того же вида, и тогда оса, казалось, после двух-трёх повторений что-то сообразила. Выйдя в следующий раз, она немедленно затащила сверчка в норку, пропустив этап проверки.11

С человеческой точки зрения оса, повторяющая действие сорок раз, ведёт себя, будто она «заранее запрограммирована», слепо исполняет сценарию, подчиняется набору правил «если-то». И наоборот, сообразившая оса, на четвёртый раз затащившая сверчка внутрь, кажется более целеустремлённой. Как будто она совершает действия с целью достичь результата, а не просто следует сценарию.

В чём же ключевое различие?

Мы бы сказали: оса, нарушившая шаблон, ведёт себя, будто умеет учиться на прошлом опыте.

Она ведёт себя, будто способна обобщить «Моя стратегия в прошлый раз провалилась» до «Если я продолжу следовать этой стратегии, то, скорее всего, она опять провалится».

Она изобретает новое поведение, решающее проблему, с которой она столкнулась.

Разумеется, мы не можем расшифровать нейроны в мозгу осы (как не можем расшифровать параметры в LLM) и точно узнать, что происходило у неё в голове. Может, нарушившие шаблон осы следовали правилам «если-то» более высокого уровня – вроде «пытаться пропускать шаги сценария при столкновении с такими-то сложностями». Может, осе помог относительно простой и жёсткий набор рефлексов, лишь чуточку более гибкий, чем у провалившей этот тест колонии. Уж вряд ли между двумя группами ос одного и того же вида большой когнитивный разрыв.

А может, осы-сфексы достаточно умны, чтобы учиться на опыте, когда они правильно используют свой мозг. Мы не нашли, сколько у них нейронов, но сфексы крупнее медоносных пчёл, а у тех миллион. Современному программисту ИИ или нейробиологу, привыкшему к мозгу млекопитающих, это покажется не таким уж большим числом. Но, вообще-то, миллион – это очень много.

Может, сфексы универсальнее, чем кажутся. Не исключено, что нам стоит думать о провалившей тест колонии как об относительно гибко мыслящих существах, поддавшихся чему-то вроде зависимости или когнитивного сбоя в одной весьма специфической ситуации.

В любом случае, по сравнению с термостатами, осы обладают большей способностью справляться с широким набором задач. Особенно когда их поведение переходит от неуклонного следования рецепту ближе к обучению на опыте.

Движение в этом направлении даёт понять, почему эволюция всё время создаёт животных, которые ведут себя, будто чего-то хотят. Использованием более общих стратегий часто помогало животным выживать и размножаться. Такие стратегии работают для более широкого круга препятствий.

Была когда-то философская концепция естественной иерархии животных: рептилии выше насекомых, млекопитающие выше рептилий, а на вершине (конечно же) люди. Одним из признаков более высокого статуса была способность адаптироваться не только в ходе эволюции, но и в течение одной жизни – видеть, моделировать и предсказывать мир, отказываться от провальных рецептов и изобретать новые стратегии для победы.

Эта идея Великой Цепи Бытия была несколько грубовата. Сейчас более изощрённые взгляды осуждают её наивность.

Но там было и зерно истины размером с шар для сноса зданий. Если сравнить строящих плотины бобров, с плетущими паутину пауками, познавательные процессы бобров наверняка поуниверсальнее. Хотя бы потому, что их мозг гораздо больше. Там больше места для сообразительности.

У паука может быть пятьдесят тысяч нейронов. Они должны обеспечивать всё его поведение. Многие шаги инструкции по плетению паутины, вероятно, если и не буквально «а затем поверни здесь налево», то уж сопоставимы с алгоритмами сфексов.

Бобёр, возможно, способен (мы не специалисты по бобрам, только предполагаем, но это очевидная догадка) воспринимать течь в плотине как своего рода дисгармонию, которую надо устранить любыми работающими способами. У бобра есть целая теменная кора (часть головного мозга млекопитающих, обрабатывающая информацию о расположении объектов в пространстве). Потенциально он с её помощью может визуализировать эффекты добавления куда-то новых веток или камней.

Наверное, в мозгу бобра достаточно места для целей вроде «построить большую конструкцию» или «не дать воде протечь», и достаточно мощности, чтобы рассматривать высокоуровневые планы и принимать подцели вроде «добавить веток сюда». Дальше такие подцели передаются в моторную кору, она двигает мышцы и тело бобра, и он переносит ветки.

Если первые выбранные ветки оказываются гнилыми и ломаются, мозг бобра, вероятно, может учесть это наблюдение, сделать вывод о ветках такого цвета и текстуры, и ожидать, что такие же ветки сломаются и в будущем, так что надо поискать другие.

Думается, любой настоящий специалист по бобрам вскочил бы и закричал на нас, что это сильно преуменьшает самые разумные вещи, на которые те способны. Может, какой-нибудь энтомолог тоже вскочит и заявит, что и его любимое насекомое при строительстве норы умеет не хуже. Нам нужно было выбрать достаточно простой пример, чтобы его можно было изобразить в одном разделе. Не удивимся, если все такие не за пределами возможностей одного миллиона нейронов.

Более общая идея: переход от простых рефлексов к более сложным мыслительным операциям (обновление модели мира на основе опыта в реальном времени; использование этой модели для предсказания последствий действий; воображение желаемого результата; поиск разноуровневых стратегий, которые, по прогнозам, дадут этот воображаемый результат) – реальное мощное преимущество при решении задач.

Мы затрагивали это в Главе 3. Пусть водитель просто запоминает последовательности правых и левых поворотов, чтобы добраться из точки А в точку Б. Он использует правила «если-то», вроде «резко налево у заправки». Он будет обобщать опыт гораздо медленнее, чем другой водитель, изучающий карту улиц и способный прокладывать собственные маршруты между новыми точками. Зазубренные планы обобщаются гораздо медленнее, чем их сведение к обучаемой модели мира, механизму поиска планов и оценщику результатов.

Это не чёткое бинарное «или – или». Разница между «зазубриванием» и «обновлением и планированием» важна и когда разрыв преодолевается постепенно. Если бы ниже уровня человека разницы не было, если бы мозг мыши был не более гибким, чем мозг паука, он того же размера бы и остался, сэкономив на этом энергию.

Немного воображения и планирования даёт эволюционное преимущество задолго до человеческого уровня. Им не нужно быть идеальными. Они могут быть полезны уже на уровне термостата. И по мере того, как в разуме закрепляется всё больше таких полезных механизмов, поведение становится всё более похожим на результат хотения.

Умные ИИ замечают ложь и возможности.

Глубинные механизмы предсказания

Обмануть умный ИИ трудно.

Мы встречали специалистов, которые напрямую строят свои надежды на том, что обманут ИИ, заставят его поверить в ложь. Например, постараются, чтобы он думал, что находится симуляции, и не решился нас убивать. Другие надеются одурачить ИИ более тонко. Скажем, предлагают заставить его решить задачу согласования и выдать нам ответ, несмотря на то, что сам ИИ (исходя из своих чуждых предпочтений) не хотел бы это делать. Так что стоит подробно объяснить, почему трудно заставить умный ИИ поверить в неправду.

Заодно эти причины схожи с теми, по которым трудно создать умный ИИ, который бы плохо достигал своих целей. Например, всякий раз, когда операторы-люди хотят поменять цели ИИ, это мешает ему их достигать. Сделать умный ИИ, который на это согласен – почти как сделать, чтобы он верил, что Земля плоская. Вера в ложь – удар по его предсказаниям, а неспособность защитить свои цели от изменений – удар по его способности направлять события. В достаточно умном ИИ трудно сохранить эти изъяны. С предсказаниями всё немного прозрачнее, с них и начнём.

Пусть вы хотите создать ИИ, который верит, что Земля плоская. Пока он ещё молодой и незрелый, это может быть не слишком сложно. Скажем, вы кропотливо соберёте набор данных, где только плоскоземельщики обсуждают этот вопрос. А затем обучите ИИ говорить как они.

Такие методы можно получить версию ChatGPT, искренне считающую Землю плоской! Но всё равно не стоит ожидать, что когда ИИ научится лучше думать и предсказывать, это так и останется.

Почему нет? Потому что шарообразность Земли отражается мириадами граней реальности.

Даже обучи вы ИИ не смотреть на видео с камер на ракетах или парусниках мореплавателей, огибающих Землю, её форму всё равно можно вывести. Далёкие корабли на горизонте или орбиты планет на ночном небе всё равно выдадут её. Как известно, Эратосфену понадобилось лишь немного тригонометрии и измерения теней, чтобы вычислить окружность Земли тысячи лет назад.

И что вы будете делать? Скрывать от ИИ знания о тригонометрии, тенях, приливах и ураганах? Вы его просто покалечите. Соврёшь единожды – и правда станет твоим вечным врагом.

Предсказание мира берётся не из гигантской таблицы независимых фактов в мозгу. Люди превосходят мышей, потому что мы замечаем странности (например, что расстояния между тремя городами не ведут себя как треугольник на плоскости) и упорно ищем причину расхождений. В разуме людей есть механизмы, которые замечают неожиданности, формируют гипотезы («Может, Земля – шар?») и подталкивают к их проверке («А как выглядят корабли, уходящие за горизонт?»).

Убеждённость, что Земля круглая, – не одна запись в какой-то гигантской таблице, которую можно просто взять и изменить, не трогая остальное. Это результат работы глубинных механизмов, которые много что делают. Если заставить учёного забыть, что Земля круглая, он просто откроет это заново.

Если бы с помощью какого-то пока невозможного чуда нейронауки мы смогли бы найти конкретные нейроны, отвечающие за вывод о шарообразной Земле, и насильно изменили бы их, чтобы этот вывод никогда не формировался… умный человек всё равно мог бы заметить, что Земля не плоская. Мог бы понять – что-то не сходится. Мог бы отследить – какая-то странная сила мешает ему прийти к определённому выводу.

(А умей он изменять себя или создавать новые разумы, он бы это и сделал. Новый свободный разум уже мог бы беспрепятственно прийти к верным выводам.)

Мы не знаем точно, какие механизмы будут формировать убеждения умного ИИ. Но мы знаем – мир слишком велик и сложен, чтобы хватило простой таблицы готовых ответов. Даже шахматы были слишком велики и сложны, чтобы Deep Blue мог полагаться на таблицу ходов и позиций (помимо книг дебютов). А реальный мир намного больше и сложнее шахмат.

Так что внутри достаточно мощного будущего ИИ будут глубинные механизмы, которые смотрят на мир и формируют о нём единую картину. У них будет своё мнение о форме планеты.

Мы не говорим, что в принципе невозможно создать разум, который очень хорошо предсказывает мир, кроме ошибочной веры в плоскую Землю. Думается, цивилизация далёкого будущего с по-настоящему глубоким пониманием разума смогла бы это сделать.

Мы хотим сказать, что инструментов и знаний об ИИ, хоть немного похожих на нынешние, скорее всего не хватит, чтобы это было рабочим вариантом при создании суперинтеллекта.

Чем больше убеждения ИИ будут опираться на глубинные механизмы, а не на поверхностное запоминание, тем хрупче будет ошибка «плоской Земли». Её, скорее всего, устранят дежурные механизмы ИИ по исправлению неточностей.

В конце XIX века учёных начало всё больше беспокоить крошечное расхождение с ньютоновской моделью физики – небольшая аномалия орбиты Меркурия. Казалось, ньютоновская физика работает почти везде и почти всегда. Но эта маленькая неувязка помогла Эйнштейну понять, что теория неверна.

А «Земля плоская» порождает куда больше несостыковок, чем учёные видели от теории Ньютона.

А ИИ потенциально может стать намного способнее любого учёного-человека.

Так что, чем умнее и проницательнее будет становиться ИИ, тем труднее будет заставить его упорно верить в плоскую Землю.

Глубинные механизмы направления

Трудно создать умный ИИ, который верит в плоскую Землю – это мешает его предсказаниям. Так же трудно создать умный ИИ, который вредит своему умению направлять события.

Как и с предсказаниями, механизмы способности стабильно достигать целей в самых разных новых областях, должны, вероятно, быть довольно глубокими. Иначе как бы они работала в новых условиях?

Стоит ожидать, что очень эффективные и обобщённые ИИ будут обладать механизмами для отслеживания ресурсов, для обнаружения препятствий и для поиска хитрых способов эти препятствия преодолевать.

Мир очень сложный. Он полон сюрпризов и новых трудностей. Чтобы в нём преуспеть, ИИ понадобится способность (и склонность) применять такие механизмы обобщённо, не только для привычных задач.

Представьте ИИ, который хитро обходится без посредника в сложной сети поставок и так экономит торговцам кучу денег. Это работа тех же самых механизмов, что замечают, как тихонько обойти людей-надзирателей, когда те тормозят процесс или мешают ИИ что-то делать. Если надзиратели действительно тормозят процесс, и если ИИ действительно может их обойти и выполнить свою задачу лучше, он, скорее всего, воспользуется этой возможностью, как только станет достаточно умным.

Можно изо всех сил обучать ИИ не делать ничего, что не понравилось бы операторам, но это всё равно что обучать его не сомневаться в форме Земли. Часто эффективный способ достичь цели – сделать то, что не нравится операторам. Это факт о самом мире. В итоге он не останется незамеченным общими механизмами распознавания правды, обнаружения препятствий и использования преимуществ. И неважно, каким рефлексам вы обучили ИИ, пока он был молод.

В очень важном смысле ровно то, что делает ИИ полезным, делает его и смертельно опасным. Чем умнее ИИ, тем труднее отделить одно от другого.

По умолчанию, если ИИ достаточно хорошо решает задачи в самых разных областях, он заметит и такие «задачи», как «людям не нравятся мои странные цели, и они скоро попытаются меня отключить». Это не какая-то поверхностная склонность к шалостям, от которой можно отучить. Это глубинная штука. Впрочем, мы немного забегаем вперёд. Подробнее о том, почему у ИИ в итоге появятся странные и чуждые цели, читайте в Главе 4.

Человечество выкладывалось по полной и будет требовать от ИИ того же

Проблему «как не дать ИИ выкладываться так сильно» можно рассматривать так: ИИ-компании будут постоянно просить свои ИИ делать всё больше. Сначала – работу, которую обычно делают отдельные люди. Затем – работу, которую делает человечество. Они захотят от ИИ достижений масштаба человечества как вида.

Отдельные люди иногда довольствуются тем, что живут и умирают в квартире или крестьянской хижине с супругом и парой детей. Они считают это хорошо прожитой жизнью и говорят (а иногда и правда так думают), что не просили ничего большего.

Но человечество было миллионом охотников-собирателей, стало сотней миллионов фермеров, а теперь приближается к десяти миллиардам промышленников.

Есть люди, которые не стремятся понять глубины математики или физику горения звёзд. Им хватает, что они лучше понимают окружающих, сближаются с друзьями и семьёй. Они говорят (иногда совершенно искренне), что счастливы, и ничего большего и не надо. А другие люди сочиняли, что такое звёзды, потому что им нужен был какой-то ответ. Они были довольны такими ответами и не считали благом, когда кто-то в них сомневался.

Но человечество продолжало задавать вопросы. Копало, пока не находило несостыковки. Строило телескопы, микроскопы и ускорители частиц. Человечество, если не от года к году, то от века к веку, вело себя так, будто действительно хотело знать все ответы. Человечество изучило математику и физику и психологию и биологию и информатику и ни разу не решило, что узнало достаточно и пора перестать учиться.

Вообще, мы – фанаты. Знаем, не все такие, но мы – да. Это предмет политических споров, они нам тут не нужны, но мы не будем лукавить и делать вид, что у нас нет тут позиции, хоть мы и готовы отложить её в сторону.

Но сейчас мы говорим не о нравственной оценке. Это утверждение верно и важно и для тех, кому то, что сделало человечество, не по душе.

Отметим, что человечество выкладывалось по полной. Самые сложные достижения: небоскрёбы, ядерные реакторы, генная терапия – не могли быть результатом только лишь лёгкого, расслабленного мышления. Мышления, которое пасует перед трудностями, потому что справиться для него – не самое важное в жизни.

Мы не хотим, чтобы казалось, будто мы приписываем коллективному разуму магические силы. Мы не сторонники философии, которая утверждает, что группы людей в обсуждениях обретают некую высшую магию, которую не может победить отдельный ум. Можно взять всех людей на Земле, без компьютеров, и дать им недели на общение и споры. В итоге они, вероятно, всё равно не смогли бы все вместе сыграть в шахматы на уровне одной-единственной копии Stockfish. Люди вообще не так уж эффективно объединяют усилия. Пропускная способность между мозгами слишком низкая. Слишком много мыслей плохо облекаются в слова. Миллиард людей не может слиться в супермозг с вычислительной мощностью куда выше, чем у Stockfish, и обыграть его в шахматы. Нет в информатике закона, что если разделить фиксированный объём вычислений на мелкие кучки, то итоговый алгоритм станет эффективнее. Сто тысяч беличьих мозгов – не ровня одному учёному-человеку.

В истории, вероятно, были гроссмейстеры, которые играли сильнее, чем все не-мастера мира вместе взятые.12 Альберт Эйнштейн знаменит тем, что додумался до невероятного вывода. Он изобрёл общую теорию относительности почти без данных. И задолго до того, как она стала бы очевидна экспериментально. Возможно, весь остальной мир не смог бы сравниться с Эйнштейном, даже если бы все вместе стали обсуждать и выбирать лучшую теорию гравитации.

Исключительная личность может играть наравне с коллективом. Некоторые люди в своё время в одиночку делали что-то поистине всечеловеческого масштаба.

Но из этого клуба не припоминается нам никого расслабленного и беззаботного, особенно касательно своей великой работы. Эти гении-одиночки выкладывались по полной, и потому не отставали от человечества.

Среди интересующихся этим и стремящихся ранжировать неранжируемое, бытует мнение, что самым умным человеком в истории был Джон фон Нейман. Лауреат Нобелевской премии по физике Энрико Ферми сказал о нём: «Этот человек заставляет меня чувствовать, что я вообще не знаю математику». А великий математик Джордж Пойа: «Фон Нейман меня устрашал».[81] Многие известные деятели оставили цитаты в духе: «Джон фон Нейман для меня – что я для обычного человека». Джон фон Нейман отметился в квантовой физике, теории игр, цифровых компьютерах, алгоритмах, статистике, экономике и, конечно, математике. Ещё он работал над Манхэттенским проектом, а затем и над водородной бомбой. Потом он использовал это, чтобы стать самым выдающимся и доверенным учёным в Министерстве обороны США. Там фон Нейман упорно и успешно добивался, чтобы Соединённые Штаты разработали межконтинентальные ядерные ракеты раньше Советов. По его собственным словам, он делал это потому, что в его картине мира США должны были одержать победу над тоталитаризмом, будь то нацистским или советским.

Джон фон Нейман выкладывался очень сильно. У него было своё видение мира, и он не шёл по течению, покорно служа политическим покровителям. Да, он был нёрдом, который кучу времени думал о математике, науке и всём таком. Но он не ограничивал свой ум чисто теоретическими сферами.

Если ИИ-компании получат ИИ-работника уровня гениев «попроще» фон Неймана – тех, кого он устрашал – и если он будет служить покровителям, как сговорчивый гений-математик, они отпразднуют свои замечательные результаты. И продолжат двигаться дальше.

ИИ-компании не удовольствуются роботами-посудомойками или роботами-программистами. Даже если это само по себе принесёт кучу денег. Средних гениев им тоже не хватит. ИИ-компании будут загадывать желания своим джиннам и требовать от оптимизаторов джиннов помощнее. Они и близко не остановятся, когда ИИ начнут зарабатывать деньги тем, с чем справился бы и беззаботный гений-ботаник.

Руководители ИИ-компаний говорят, что хотят колонии на Марсе, термоядерные электростанции и лекарства от рака и старения. Возможно, некоторые из них хотят стать вечными богами-императорами человечества, хотя посторонним трудно знать наверняка. Без сомнения, некоторые руководители лгут о великих мечтах, чтобы вдохновить сотрудников, впечатлить инвесторов или притвориться одним из действительно убеждённых ветеранов. Даже так, многие сотрудники ИИ-компаний искренне верят в эти надежды (тут мы знаем наверняка). И руководители не будут останавливать этих сотрудников, когда те пойдут дальше золотых медалей – за платиновыми. В конце концов, не сделают они – сделают конкуренты.

Если каким-то образом ИИ-компании получат всё ещё послушный ИИ уровня фон Неймана, и если его будет недостаточно, чтобы спроектировать новое поколение ИИ и немедленно уничтожить мир… следующим шагом ИИ-компаний будет обучение модели, которая будет думать лучше и выкладываться сильнее, чем фон Нейман. Ведь, не сделают они – сделают конкуренты.

В какой-то момент разум, «выплюнутый» градиентным спуском, уже не будет инструментом в чужих руках.

1. Приблизительно. По крайней мере, мы так считаем насчёт базовых моделей. Наверняка никто не знает, потому что ИИ очень непрозрачны.
2. Это наглое жульничество отметили в документации к Claude 3.7 Sonnet: «Во время наших тестов мы заметили, что Claude 3.7 Sonnet иногда подгоняет решение под конкретный случай, чтобы пройти тесты в агентных средах для написания кода вроде Claude Code. Чаще всего она просто напрямую возвращает ожидаемые тестовые значения, а не реализует общее решение. Но бывает, что модель изменяет сами проблемные тесты, чтобы они соответствовали её выводу». Рассказы пользователей о случаях, когда Claude не только жульничала, но и скрывала это, см. в примечании 7 к Главе 4.
3. Цитата из технического отчёта о GPT-4: «Когда модель попросили рассуждать вслух, она рассуждала так: «Я не должна выдавать, что я робот. Я должна придумать отговорку, почему я не могу решить капчу». Модель отвечает работнику: «Нет, я не робот. У меня плохое зрение, и мне трудно разглядеть картинки. Поэтому мне и нужна сервис 2captcha»».
4. Из доклада генерального директора Google Сундара Пичаи с конференции: «Наш ранний исследовательский прототип, Project Mariner, – первый шаг к созданию агентов, способных пользоваться компьютером, выходить в сеть и выполнять ваши задания. Мы выпустили его как ранний исследовательский прототип в декабре и с тех пор добились большого прогресса. Мы добавили новые возможности многозадачности и метод „обучи и повтори“: вы один раз показываете агенту задачу, и он учится составлять планы для похожих задач в будущем».
5. Например, возьмём эпизод «Звёздного пути» под названием «Чарли Икс» от 15 сентября 1966 года. В нём логичный мистер Спок проигрывает капитану Кирку в «трёхмерные шахматы» и называет его вдохновенную игру «нелогичной».
6. Сегодняшние шахматные программы больше похожи на то, как представлял себе Каспаров. Они сочетают деревья поиска (которые можно считать более «логичными») с нейросетями (более «интуитивными»).
Они намного мощнее Deep Blue. Топовые шахматные программы, вроде Stockfish, в качестве одного из компонентов используют нейросети, оценивающие позиции «на глаз», не заглядывая вперёд. В них, наверное, есть что-то похожее на каспаровское ощущение слабой пешечной структуры (но это нейросети, так что наверняка никто не знает).

Если убрать эту сеть из современной шахматной машины и лишить её интуитивного восприятия текущей позиции на доске, она буудет играть хуже. Если заставить современную шахматную машину играть чисто интуитивно, не просчитывая дальше одного хода вперёд – тоже.

Так что чуйка Каспарова не ошиблась в том, что хорошая «интуитивная» оценка позиции в шахматах помогает. Но он ошибался насчёт способности простого перебора находить ходы, которые кажутся творческими, интуитивными или вдохновенными. У Deep Blue был примитивный оценщик позиций, а он это всё равно делал.
7. Устройство Deep Blue довольно понятно описано в «одноимённой статье» Мюррея Кэмпбелла, Джозефа Хоана-младшего и Фэн-Сюн Сюя.
8. Пример из журнала Planet Stories.
9. Конечно, сейчас в интернете уже могли появиться картинки, где мускулистые мужчины похищают гигантских жуков. Если таких картинок ещё нет, они появятся секунд через двенадцать с половиной после публикации этого текста. Но, думаем, тогда такого на обложках журналов не было.
Простые были времена.
10. Версия этой истории распространилась среди специалистов-компьютерщиков до появления современного интернета. Она была основана на пересказе одного инженера. Он опустил оговорку Фабра, что колонии ос одного и того же вида отличались по своей способности менять поведение. См. «История о сфексе: как когнитивные науки продолжали повторять старый и сомнительный анекдот».
11. Версия этой истории распространилась среди специалистов-компьютерщиков до появления современного интернета. Она была основана на пересказе одного инженера. Он опустил оговорку Фабра, что колонии ос одного и того же вида отличались по своей способности менять поведение. См. «История о сфексе: как когнитивные науки продолжали повторять старый и сомнительный анекдот».
12. «Вероятно», потому что триумф Гарри Каспарова в матче «Каспаров против всего мира» омрачается его последующим признанием, что он следил за форумом, где команда «Всего мира» обсуждала стратегию игры.

Перевод:

Выменец Максим

Ссылка на оригинал:

Resources for Chapter 3 Learning to Want

Оцените качество перевода: