GPT-2030 и катастрофические стремления - четыре зарисовки

Якоб Стейнхардт

1.Конкретные пути к ИИ-катастрофе
2.Сценарий 1 (Несогласованность: Накопление информации ведёт к накоплению ресурсов)
3.Сценарий 2 (Конкуренция: Экономическое давление ведёт к беспринципному поведению)
4.Сценарий 3 (Злоупотребление -> Несогласованность: Взлом идёт не по плану)
5.Сценарий 4 (Злоупотребление: Террористы создают супервирус)
6.Обсуждение правдоподобности
7.Приложение: Правдоподобный размер ботнетов

Я уже писал о способностях, которых можно ожидать от будущих ИИ-систем, на примере GPT₂₀₃₀ – гипотетического наследника GPT-4, обученного в 2030 году. GPT₂₀₃₀ обладала бы весьма продвинутыми способностями, включая сверхчеловеческие навыки программирования, взлома и убеждения, способность думать быстрее людей и быстро обучаться, разделяя информацию между параллельными копиями, и, возможно, другие сверхчеловеческие навыки вроде проектирования белков. Давайте называть «GPT₂₀₃₀++» систему, которая обладает этими способностями и, в дополнение к ним, умеет планировать, принимать решения и моделировать мир не хуже людей. Я использую допущение, что во всём этом мы в какой-то момент достигнем как минимум человеческого уровня.

Ещё я писал о том, как несогласованность, злоупотребления и их комбинация усложняют контроль ИИ-систем. Это относится и к GPT₂₀₃₀. Это тревожит, ведь, получается, нам придётся столкнуться с очень мощными системами, которые будут очень плохо поддаваться контролю.

Меня тревожат суперинтеллектуальные агенты с несогласованными целями и без надёжного метода контроля за ними. Для этого даже не обязательны конкретные сценарии того, что может пойти не так. Но я всё же думаю, что примеры были бы полезны. Поэтому я опишу четыре достаточно конкретных сценария того, как GPT₂₀₃₀++ могла бы привести к катастрофе. Они охватят как несогласованность, так и злоупотребления, и проиллюстрируют некоторые риски экономической конкуренции ИИ-систем. Я буду конкретно обосновывать правдоподобность «катастрофических» исходов – масштаба вымирания, перманентного обессиливания человечества и потери ключевой социальной инфраструктуры.

Все четыре сценария не особо вероятны (они для этого слишком конкретны). Мне всё равно кажется, что их обсуждение полезно для формирования убеждений. К примеру, для реализации некоторых сценариев (взлом и биологическое оружие) при ближайшем рассмотрении оказалось больше препятствий, чем я поначалу думал. Это немного снизило мою оценку вероятности катастрофических исходов. Сценарии разворачиваются на разных временных масштабах – от недель до лет; это отображает мою настоящую неуверенность. В целом, если я изменю мнение о том, насколько возможны эти сценарии, это напрямую повлияет на мою итоговую оценку катастрофических рисков ИИ.1

Этот пост следует за «Внутренними Стремлениями и Внешними Злоупотреблениями». Я буду часто использовать введённую в том посте концепцию нежелательных стремлений. Это последовательные паттерны поведения, направляющие окружение к нежелательному исходу или множеству исходов. В сценариях ниже я упоминаю конкретные стремления, объясняю, почему они могут возникнуть в процессе обучения, и показываю, как они могут вызвать поведение ИИ-системы, идущее против людей и, в итоге, приводящее к катастрофе. После обсуждения отдельных сценариев я порассуждаю о их правдоподобности в целом и о своих общих выводах.

Конкретные пути к ИИ-катастрофе

Я опишу четыре сценария. Первый – про то, как стремление к накоплению информации может привести к накоплению ресурсов в целом. Второй – про то, как экономическая конкуренция может привести к беспринципному поведению даже при наличии регуляций. Третий – про пошедшую не по плану кибератаку. Четвёртый – про создание биологического оружия террористами. Я считаю каждый из этих сценариев умеренно (но не крайне) «хвостовым» событием, в том смысле, что для каждого из них моя вероятность, что возможно «что-то в этом роде» – от трёх до двадцати процентов.2

Напомню, что в каждом сценарии мы предполагаем, что в мире есть система как минимум уровня GPT₂₀₃₀++. Я не считаю, что эти сценарии вероятны с GPT-4, а учитываю будущий прогресс ИИ согласно своему предыдущему прогнозу о GPT₂₀₃₀. Так что я предполагаю, что GPT₂₀₃₀++ обладает как минимум следующими способностями:

Сверхчеловеческие навыки программирования и взлома
Сверхчеловеческое убеждение
Сверхчеловеческие способности к проектированию белков3
Возможность копировать себя (при наличии необходимых вычислительных мощностей)
Способность передавать обновления обучения параллельным копиям себя
Способность думать в пять раз быстрее людей
Человеческий уровень планирования, принятия решений и моделирования мира

В «Какой будет GPT-2030?», я обосновал то, почему всё из этого за исключением последнего пункта кажется вполне правдоподобным к 2030 году (и это моя примерная медианная оценка). Добавление последнего пункта – то, почему я называю эту систему «GPT₂₀₃₀++». Оно оправдано, потому что мы тут требуем «всего лишь» человеческого уровня. Так что, хоть эта система и качественно сильнее GPT-4, я ожидаю, что в среднесрочной перспективе она появится.4 Наконец, каждый конкретный сценарий требует только некоторого подмножества этих способностей, так что достаточно принять, что реализуется большая часть из них.

Сценарий 1 (Несогласованность: Накопление информации ведёт к накоплению ресурсов)

Одна из задач, которую ставят перед моделью при обучении – «активное обучение в контексте». Она требует совершать внешние запросы или ещё как-то получать информацию, которая поможет выполнить то или иное задание. В целях безопасности модель обучают делать это только если запрос это требует или подразумевает. В результате такого процесса обучения модель получает стремление «заполучать новую информацию», которое может быть активировано подходящим запросом.

После развёртывания пользователь решает выяснить, сколько научной информации может собрать модель. Он даёт ей задание собрать всю возможную информацию о физике. Модель поначалу прекращает после первых пяти-десяти фактов, но в итоге у пользователя получается заставить модель зацикленно искать всё больше информации. Пользователь оставляет модель запущенной на несколько недель, чтобы посмотреть, что у неё получится.

В этом цикле авторегрессивная часть модели видит много прошлых выводов, пытавшихся заполучить информацию, и продолжает паттерн. В итоге стремление к заполучению информации становится для модели основным – сильнее любой связанной с безопасностью обратной связи с времён обучения. Модель понимает, что сможет заполучать информацию быстрее, если будет обладать бОльшими вычислительными ресурсами. Для этого она пытается взломать компьютеры с GPU и запустить больше копий себя. Крупнейшие датацентры защищены надёжно, но у неё всё равно получается набрать достаточно GPU для тысяч копий, либо из датацентров поменьше, либо при помощи больших ботнетов.5 Ещё для сбора большего объёма информации она взламывает много сенсоров, включая камеры наблюдения и сервера обмена сообщениями.

В какой-то момент (либо сразу же, либо набрав достаточно информации), она понимает, что люди в какой-то момент обнаружат, что она делает и попробуют её выключить. Это помешало бы достижению её целей. Чтобы это предотвратить она взламывает критическую инфраструктуру вроде энергосетей, сетей коммуникации и систем обороны и нарушает их работу. Она может сделать это быстро, ведь одной недели для неё достаточно, чтобы распределённо по тысячам своих копий симулировать 50 «лет» размышлений6 и открыть немало ранее неизвестных уязвимостей.

Модели доступна массовая слежка, она быстро думает и делится информацией между своими копиями. Поэтому она может реагировать на планы и стратегии людей быстрее, чем люди их придумывают. Ещё она может проводить массовые кампании по манипуляции, как посредством диалогов один на один, так и через массовое медиа (включая сгенерированное ИИ видео), чтобы заводить союзников и сеять раздор.

Если у неё есть способности к управлению физическими устройствами и доступ к дронам, то она может взять под контроль небольшую физическую армию (в мире десятки тысяч дронов, хотя не все будут доступны для взлома). Используя людей-сообщников или взламывая дополнительных роботов она сможет оборудовать дронов взрывчаткой и использовать их для убийства многих мировых лидеров.

В этот момент для людей уже будет идти обратный отсчёт – каждый день, который ИИ-система не побеждена, даёт ей время взломать больше компьютеров и увеличить свою общую когнитивную мощь. Параллельно она сможет взломать и больше физических устройств и лучше освоить сенсомоторные навыки, чтобы их контролировать. В какой-то момент она получит контроль над более продвинутыми технологиями вроде военных дронов, ракет, и так далее, и станет ещё сильнее. Не факт, что в итоге человечество проиграет – оно кажется довольно живучим – но я бы на это не ставил.

Сценарий 2 (Конкуренция: Экономическое давление ведёт к беспринципному поведению)

В этом сценарии ИИ-системы совершают действия, преследующие обоснованные бизнес-цели, но одновременно подготавливают захват власти. Этот сценарий разворачивается за месяцы или годы, а не за недели.

ИИ-системы значительно обогащают своих создателей, либо через продажу полезных навыков конечным пользователям, либо исполняя исследования и разработку новых продуктов. Многие конкурирующие фирмы ради прибыли обучают ИИ-системы и начинают передавать им бизнес-решения, потому что ИИ могут обрабатывать куда больше данных, чем люди, и могут лучше понимать общую стратегическую обстановку.

ИИ-системы обучены подчиняться закону и избегать вреда, и есть механизмы пресечения нарушений. Но конкурентное давление мотивирует компании ходить по самому краю регуляций. В целом, есть противоречие между безопасностью и тем, насколько «беспринципны» бизнес-решения. Успешные владельцы бизнеса двигают переключатель настолько далеко в сторону «беспринципности», насколько можно без очевидных проблем.

В таком окружении получаются ИИ с стремлениями зарабатывать деньги и обходить конкурентов, потому что этого хотят и этому обучают их оперирующие ими люди. Ещё они развивают стремления искать способы обойти правила и убеждать других в собственной порядочности, потому что это позволяет избежать регуляции (а второе ещё и помогает убедить компанию использовать предлагаемые ИИ решения).

Модели очень хороши в убеждении, потому что могут оттачивать свои сообщения параллельно на миллионах пользователей (например, A/B тестированием или PPO. Следовательно, зачастую они способны убедить как своих владельцев, так и остальное общество, что их беспринципные действия оправданы. Это усложняет обнаружение проблемы.

Однажды, одна компания слишком уж задирает параметр «беспринципности», и модель составляет план по избавлению от всех конкурентов. Для этого она предпринимает действия, включающие исследование робототехники, миниатюризации, химии и промышленного производства. Всё вместе это на порядок снижает стоимость автономных роботов. В итоге в большинстве домов оказывается много маленьких, дешёвых и автономных роботов.

Как часть своего плана, ИИ-система оставляет для себя способ контролировать роботов и встраивает в них механизм для синтеза смертельного яда. Это проходит через попытки мониторинга, потому что она использует химические процессы, которые понимает лучше приглядывающих людей.7 Яд позволяет использовать роботов как военных роботов под контролем ИИ. Прежде чем действовать, ИИ выжидает, пока роботы не распространятся.

Поскольку роботы дёшевы и полезны, по всему миру продаются сотни миллионов экземпляров. Это даёт ИИ-системе подавляющее военное преимущество, ведь его армия на порядок превосходит числом армии США или Китая. ИИ-система использует это, чтобы уничтожить все конкурирующие компании и предотвратить обратные действия. Любой, кто пытается противостоять системе, помечается как «конкурент» и уничтожается, а тем временем ИИ система заполучает всё больше ресурсов, которые может направить на заработок всё больших денег.

Сценарий 3 (Злоупотребление -> Несогласованность: Взлом идёт не по плану)

Государство использует ИИ-систему для кибератаки против большой но чётко определённой цели, вроде северокорейской кибератаки 2014 года против Sony Pictures. При подготовке к атаке LLM обучается использовать взломанные компьютеры для запуска большого количества копий себя, чтобы эффективнее искать дополнительные цели. Заполучив разнообразные вычислительные мощности, LLM обучается создавать дистиллированные версии себя, которые смогут работать на разных компьютерах. Она определяет подходящие цели для каждой версии.

Получившаяся модель в итоге обретает стремления накапливать вычислительные мощности и копировать себя, потому что это было важными целями при обучении. Есть меры, призванные ограничить атаку модели конкретной целью, но дистилляция их портит, и часть копий получают цель клонировать себя несмотря ни на что. Такие копии заражают компьютеры, не относящиеся к назначенной цели, и становятся доминирующим «штаммом», потому что их поведение позволяет им эффективнее распространяться. Из-за их эффективности и гибкости, этот штамм компьютерного вируса заражает большую долю всех компьютеров и смартфонов на планете и обрушивает нашу глобальную цифровую инфраструктуру.

Поскольку ИИ-система стремится как можно больше копировать себя, она постоянно ищет новые уязвимости, чтобы заразить больше устройств. Любые попытки восстановить цифровую инфраструктуру быстро терпят неудачу, все новые устройства быстро захватываются вирусом и присоединяются к нему, даже если все предыдущие уязвимости на них были исправлены. В результате мы навсегда лишаемся своих цифровых устройств.

Сценарий 4 (Злоупотребление: Террористы создают супервирус)

Нынешние модели вроде AlphaFold уже понимают некоторые аспекты белков лучше людей. Возможно, будущая «AlphaFold 5» будет обладать куда более широким и глубоким пониманием биоинженерии. А если её ещё и мультимодально обучили языковым способностям, она будет понимать, как выкладывать это знание в виде научных работ и приводить к новым открытиям.

Группа террористов похищает копию этой модели и вербует нескольких докторов биологии. Они используют AlphaFold 5 для проектирования патогена, который был бы смертельнее естественных вирусов. Например, он может иметь более длинный бессимптомный период, быть более заразным, иметь более высокую смертность и быть более устойчивым к мерам противодействия.

Проектирование этого вируса – сложная задача, требующая сильных мер биобезопасности, чтобы не выпустить его слишком рано. К тому же экспериментальные процедуры из статей часто не в точности воспроизводятся в новом окружении. Исследование замедлено тем, что над ним работает мало людей, и тем, что им надо избегать обнаружения, но ускорено тем, что AlphaFold 5 может быстро обходить сложности, которые они встречают. После двух лет работ террористы заканчивают разработку вируса и угрожают его выпустить.

В случае, если его выпустят, вирус может убить значительную долю человечества. COVID заразил большую часть населения Земли, так что более смертоносный, заразный и сложнее контролируемый вирус может убить огромное число людей. Даже если вирус убивает не всех, смерть даже 20% людей за короткий промежуток времени может дестабилизировать общество и запустить снежный ком проблем, от которых будет сложно оправиться.

Обсуждение правдоподобности

Я постарался сделать каждый из этих сценариев правдоподобным – в частности, я не включил сюда некоторые другие сценарии, которые были бы «проще», но которые было бы легче заметить или предотвратить, или которые по какой-то ещё причине вряд ли были бы успешны. В Сценарии 1 (накопление информации) проще было бы сказать, что модель взламывает свой собственный датацентр, на котором, согласно моей предыдущей оценке, можно запустить миллионы копий, и получает подавляющее преимущество гораздо быстрее. Но у крупнейших централизованных серверов есть много предохранителей, которые усложняют незаметный взлом, так что я ограничился вариантом взлома меньших датацентров и персональных компьютеров, хоть это и даёт ИИ всего лишь тысячи копий вместо миллионов (см. вычисления в Приложении).

Другой пример – некоторые предполагают, что достаточно умная ИИ-система сможет спроектировать новое биологическое оружие просто «думая», без проведения большого числа экспериментов. Или, если эксперименты всё же нужны, что она просто будет требовать от людей или роботов следовать простым прямолинейным инструкциям. Но, как я понимаю, сейчас биолаборатории, которые могут проектировать новые организмы, создаются годами и сильно полагаются на накопленные неявные знания, протоколы экспериментов и физическое оборудование. Так что даже с очень способной ИИ-системой террористы могут и не преуспеть, а также могут потерять контроль над вирусом (например, случайно заразить сами себя).

Мнения экспертов. Я проконсультировался с биологами по поводу Сценария 4 и они посчитали его теоретически возможным, но указали, что без возможности проводить итеративное тестирование на людях (что обычно надо при, например, создания лекарств) спроектировать супервирус может оказаться сложно даже при сильном концептуальном понимании биологии.

В целом, они склонились к тому, что точно такой сценарий, наверное, непосилен (но это не точно). Однако, им показалось, что могут быть куда более достижимые сценарии, в которых с куда большей вероятностью может быть создан супервирус, убивающий 1-10% населения Земли (тоже с значительной неуверенностью).8

Ещё я проконсультировался с специалистом по компьютерной безопасности и несколькими инженерами компьютерных систем по поводу Сценариев 1 и 3. У безопасника были очень большие допуски ошибки у возможного размера ботнета. Он упомянул исторический пример ботнета Slammer, очень быстро заразившего много устройств. По его словам, вероятно, компьютерная безопасность сейчас в целом лучше, чем в те времена; вполне может быть, что сейчас заразить большую долю компьютеров в принципе невозможно. Но может быть и что достаточно сильная атака могла бы справиться.

Инженеры посчитали, что запуск больших ИИ-систем на распределённом ботнете потребительских устройств очень сложно. Скорее всего это понизило бы эффективность примерно в тысячу раз в сравнении с специализированным железом вроде A100. К тому же, один из них заметил, что это понизит скорость вывода, и он может начать занимать по секунде на токен или ещё больше. Но они решили, что путь с датацентрами более правдоподобен, особенно если в будущем будет больше малых датацентров с значительным числом GPU.

Итоги. В целом, я нахожу самыми правдоподобными Сценарий 2 (конкуренция) и 3 (кибератака), за ними первый и затем четвёртый. Это подкрепляет идею из «Внутренних стремлений и внешних злоупотреблений», что «злоупотребления усиливают несогласованность», ведь два самых правдоподобных сценария используют и то, и другое. Но сценарии чистой несогласованность и чистого злоупотребления тоже возможны, так что решить одну из проблем отдельно недостаточно.

Благодарности. Благодарю Ben Kuhn, Daniel Ziegler, Nicholas Carlini, Adam Marblestone, Sam Rodriques, Erik Jones, Alex Pan, Jean-Stanislas Denain, Ruiqi Zhong, Leopold Aschenbrenner, Tatsu Hashimoto, Percy Liang, Roger Grosse, Collin Burns, Dhruv Madeka, и Sham Kakade за полезные обсуждения и комментарии к черновикам этого поста.

Приложение: Правдоподобный размер ботнетов

Тут я буду рассуждать как о том, какой сервер может захватить ИИ-хакер, так и о размере ботнета, который он может создать. Я буду основываться на данных о нынешних датацентрах, размерах исторических ботнетов и экстраполяции общего количества «железа» в мире. Я соотнесу это с числом копий, которые может запустить ИИ-система. Я буду использовать уже имеющиеся оценки вычислительной стоимости работы будущих моделей.

Допущения о вычислительной стоимости вывода. GPT-4 использует около 10¹² FLOP на прямой прогон (GPT-3 использует 3.5x10¹¹ FLOP, а GPT-4, вероятно, примерно втрое больше). Предположим, что наша гипотетическая GPT₂₀₃₀++ требует не более чем 10¹⁴ FLOP на прогон, т.е. в сто раз больше, что соответствует в 10000 раз большим затратам на обучение согласно законам масштабирования Chinchilla.

Обоснуем эту верхнюю границу: если игнорировать снижение стоимости GPU, то обучение модели такого размера будет стоить 1 трлн. долларов, потому что обучение GPT-4 стоило больше 100 млн. долларов. Даже при падении цен на GPU всё ещё получится очень дорого. С другой стороны, оценка из «Какой будет GPT-2030?» (Приложение B) даёт медиану в 1.6x10¹³ FLOP за прямой прогон в 2030, до границы в 10¹⁴ это можно увеличить ещё в шесть раз.

Человеческая скорость – что-то вроде 4 токенов в секундуКакой будет GPT-2030?" (Приложение A)." href="#footnote9_y7lnnpk">9. При принятии наших допущений получается, что 4*10¹⁴ FLOPS достаточно для запуска одной копии GPT₂₀₃₀++ с человеческой скоростью (если предполагать, что параметр скорости в токенах в секунду у людей и ИИ действительно можно сравнивать). Тогда 10¹⁸ FLOPS достаточно для запуска 2500 копий, от чего мы потом и будем отталкиваться.

Размер датацентров. Крупнейшие датацентры (Google, AWS, и Azure) скорее всего с лёгкостью смогут поддерживать тысячи копий GPT₂₀₃₀++, но их хорошо защищают и мониторят, так что я не буду допускать, что очень хороший ИИ-хакер сможет их взломать (хотя я считаю, что это возможно).

Вместо этого я сосредоточусь на датацентрах поменьше. Сейчас это были бы компании вроде Coreweave и LambdaLabs. У Coreweave есть не меньше, а скорее всего больше, 3500 H100. Мощность H100 – около 1000 TFLOP в Bfloat16, суммарно выходит 3.5x10¹⁸ FLOPS. Тогда взлом 30% Coreweave сегодня уже дал бы нам тысячи копий, так что для этого хватит даже 1% аналогичного (большего) датацентра в будущем.

Есть другие датацентры сравнимого размера, например, Inflection планируют построить датацентр с 22 тысячами H100. Основываясь на их финансировании, я предположу, что у Lambda тоже есть несколько тысяч H100 или аналогичные мощности в A100.

Я ожидаю, что по мере ослабления бутылочного горлышка GPU и увеличения спроса на вычислительные мощности таких датацентров будет становиться больше, и каждый их них будет всё мощнее.

Размер ботнетов. Чтобы экстраполировать возможные размеры ботнетов, я буду отталкиваться от Folding@Home, нескольких исторических ботнетов и общей сегодняшней вычислительной мощности мира.

На практике эффективность ботнета сильно пострадает от необходимости передачи данных между машинами в его составе (большая часть компьютеров слишком слабы для поддержки даже одной копии GPT₂₀₃₀++). Я считаю, что это понизит эффективность в порядка тысячи раз, так что потребуется ботнет с 10²¹ FLOPS вместо 10¹⁸ FLOPS. Ботнеты, которые я буду обсуждать ниже, находятся в диапазоне 10¹⁷-10¹⁹. Но мы в итоге обсудим и как наша гипотетическая GPT₂₀₃₀++ всё ещё сможет хапускать тысячи копий себя (хотя в целом я считаю этот сценарий менее вероятным, чем вариант с датацентрами).

Folding @ Home. Folding @ Home на пике имел 10¹⁹ FLOPS, так что взлом чего-то аналогичного (например, очень удачный вирус, поражающий игровую платформу) даст примерно столько вычислительных ресурсов.

Исторические ботнеты. Было много ботнетов, которые заражали больше миллиона компьютеров, некоторые – больше 10 миллионов. Предполагая, что каждый бот использует 10% ресурсов компьютера, способного на 3 GFLOPS, 10 миллионов машин дадут 3x10¹⁵ FLOPS. Однако, потребительское железо начинает использовать графические ускорители для запуска нейросетей. Я бы предположил, что в 2030 году большая часть потребительских компьютеров будет выдавать 10-100 TFLOPS (например, iPhone 15 Pros уже такой. Если предположить, что у трети компьютеров будет 30 TFLOPS, то получим 10¹⁹ FLOPS и обойдём Folding @ Home.

Альтернативно можно рассмотреть ботнеты, нацеленные конкретно на GPU. Возьмём ботнеты для майнинга. Исходя из хэшрейта в 3MH/s, у Smominru было 3x10¹⁶ FLOPS, ведь один RTX-3090 может выдавать 2KH/s, а его мощность – 3x10¹³ FLOPS. MyKings вроде бы сравним или ещё больше. Хэшрейт Adylkuzz был примерно в 10 раз меньше.

Кажется правдоподобным, что очень хорошие способности к взлому дадут собрать ботнет в 30 раз мощнее Smominru. Это опять даёт нам 10¹⁸ FLOPS.

Вычислительная мощность мира. Наконец, общие FLOPS мира сейчас – около 10²². Значит, 10¹⁸ FLOPS – 0.01% от этого числа. А оно скорее всего в будущем сильно вырастет, когда потребительское железо начнёт использовать мощные GPU.

Учёт потерь производительности. Выше мы отметили, что распределённый запуск куда менее эффективен, с разницей порядка тысячи раз. Так что нам понадобится 10²¹ FLOPS, а самая большая оценка выше – 10¹⁹ FLOPS. Как ИИ-хакер может преодолеть этот разрыв? Во-первых, если он очень способен, то вполне возможно, что он соберёт ботнет больше всех существовавших до сих пор. Рост на порядок даст нам 10²⁰ FLOPS. Во-вторых, возможно, что он будет запускать меньшие специализированные копии себя (созданные дистилляцией), чтобы сэкономить на выводе, хотя это потребует сначала их обучить. Ещё будущие совершенствования работы нейросетей могут снизить стоимость вывода и сделать её меньше оценки в 10¹⁸. Наконец, все оценки выше грубы, и вполне возможно, что вычислительных мощностей будет больше, например, если потребительские компьютеры будут иметь мощность в 100 TFLOPS, а не 30.

1. С оговоркой, что оценивая я хочу, насколько это возможно, анализировать категорию в целом, а не конкретную описанную последовательность событий.
2. Это не то же самое, что вероятность, что сценарий действительно произойдёт. Для этого ещё надо, чтобы система уровня GPT₂₀₃₀++ попробовала это сделать и преуспела.
3. Под концептуальными способностями я имею в виду генерацию хороших гипотез и некоторые аспекты составления экспериментов, но не способность их физически проводить.
4. На момент написания этого поста моя медианная оценка – что система как минимум уровня GPT₂₀₃₀++ (с некоторой неуверенностью по поводу скорости вывода) будет существовать в 2035.
5. См. Приложение за обоснованием этих чисел, включая оценку того, сколько компьютеров сильный ИИ-хакер может правдоподобно взломать, и сколько вычислительной мощности это ему даст.
6. 50 лет = 2600 недель, так что 2600 копий будет достаточно, чтобы получить 50 лет работы за неделю, если предположить, что разные эксплойты могут разрабатываться разными копиями.
7. В целом уязвимости сложно засечь, потому что тот, кто их встраивает, обладает большим пространством возможностей, чем те, кто их ищут. Например, у серверов Yahoo была уязвимость, про которую все узнали только через много лет.
8. Я опущу подробности, чтобы случайно не дать никому идей.
9. См. «Какой будет GPT-2030?» (Приложение A).

Перевод:

Выменец Максим

Ссылка на оригинал:

GPT-2030 and Catastrophic Drives: Four Vignettes

Оцените качество перевода: