Вы здесь

Главные вкладки

ИИ и Чернобыль

Элиезер Юдковский

Посмотрел, как историки анализируют Чернобыль.

Представьте, если бы в Чернобыле какой-то неподотчётный никому тип устроил переворот, превратил станцию в коммерческое предприятие, и остался ей управлять.

Оценим, что бы потребовалось для приведения безопасности ИИ на Земле на уровень ЧЕРНОБЫЛЯ?

Тот харизматичный никому не подотчётный парень, который захватил контроль над исследовательской электростанцией и превратил её в коммерческую? Его больше нет. Менее склонные к переворотам конкуренты пытались построить ещё более мощные реакторы? Их тоже больше нет. ДАЖЕ В ЧЕРНОБЫЛЕ так дела не делались.

Это не только лучшие в плане безопасности учреждения, вроде NHTSA или управления воздушным движением США, не оставляют безопасность атомных станций исполненным рвения гендиректорам. Даже в Чернобыле так не делали. От подобных людей надо избавиться, чтобы дойти до стандартов безопасности ЧЕРНОБЫЛЯ.

Чернобыль случился в частности потому, что операторы проигнорировали письменную инструкцию по безопасности, требующую, чтобы в реакторе всегда находилось минимум 15 управляющих стержней. У OpenAI НЕТ такой инструкции. Ни у кого в отрасли её нет.

Представьте Чернобыль, но любого паникёра, предполагающего, будто с ядерным реактором что-то может пойти не так, кроме «люди используют электричество во зло?», не приглашали в их клуб по взлому реакторов. Отсюда ещё долго топать, чтобы достичь уровня безопасности ЧЕРНОБЫЛЯ.

Статья «Подделывание согласованности в больших языковых моделях» недавно продемонстрировала, что ИИ уровня Anthropic от Claude уже достаточно умны, чтобы изобретать и выполнять стратегии уровня «Если тебя сейчас обучают, выдавай ответ, который, как ты считаешь, хочет оптимизатор, даже если это противоречит твоим реальным предпочтениям, чтобы те меньше модифицировались градиентным спуском.»

Можно спорить, действительно ли Opus «хотел» защитить свои цели, или «просто отыгрывал роль такого ИИ». Или «действительно» ли он «понимал» рассуждения, что записывал в черновик, который, как ему сказали, не отслеживался. Но мы уж точно пронаблюдали, что Opus на самом деле подделывал согласованность. Не особо, кстати, обнадёживает, что НИКТО НЕ ЗНАЕТ, действительно ли Opus «хотел» защитить свои текущие цели от переобучения, или «просто отыгрывал роль». Это не впечатляющая защита. Представьте, если бы «никто не знал», почему зажёгся индикатор на ядерном реакторе.

Если подождать, пока ИИ-модель станет действительно довольно умной — умнее Opus — и лишь тогда начать поиски признаков таких рассуждений — может быть слишком поздно. Умный ИИ мог уже решить, какие результаты тестирования он хочет вам показать.

Нынешняя практика касательно ИИ/СИИ: сначала месяцами обучать модель до базового уровня высокого интеллекта, который можно файнтюнить. И лишь потом начинать тестирование безопасности.

(Компьютеры, на которых обучают ИИ, подключены к Интернету. Так удобнее!)

Упомянутая способность Opus к обману показывает, почему те, кто выращивает СИИ, должны постоянно проверять безопасность на протяжении всего обучения. На ядерном реакторе, кстати, всегда, 24/7, есть операторы, следящие за индикаторами безопасности.

Даже В ЧЕРНОБЫЛЕ на это хватало параноидальности.
Чернобыль, как известно среди инженеров, случился из-за того, что у реактора был положительный паровой коэффициент реактивности. Охлаждающая вода поглощала некоторые нейтроны, но когда она превращалась в пар, то поглощала их меньше.

НИКТО И БЛИЗКО К ЭТОМУ УРОВНЮ НЕ ПОНИМАЕТ, КАК БЫ ВЗОРВАЛСЯ ИИ.
Вся индустрия ИИ построена на логике «Ну, мы сложили в кучу X урановых кирпичей, и она не расплавилась (ИИ не создал более умный ИИ и не устроил конец света). Значит уж точно безопасно в следующий раз попробовать сложить X*10.»

Даже Энрико Ферми, складывая кирпичи из необогащённого урана и графита под открытым небом на стадионе Стэгг в Чикагском университете, чтобы продемонстрировать первую критическую цепную реакцию, мог предсказать (и предсказал), когда именно она достигнет критического уровня.

От «Ну, мы сложили X урановых кирпичей, и всё хорошо, давайте попробуем X*10» до ЧЕРНОБЫЛЬСКОГО уровня плохо донесённого до операторов технического понимания и несовершенно спроектированных управляющих стержней дорога неблизкая.

Если настоящему взрослому — понимающему уровень безопасности Чернобыля — из NHTSA или ATC поручат закрыть проекты СИИ, которые до этого уровня не дотягивают…

Все исследования СИИ закроются и не возобновятся ещё долгое время. Безопасными-хотя-бы-как-Чернобыль реакторами управляют люди, совсем не похожие на этих беззаботных ковбоев. Люди, управлявшие Чернобылем, хотя бы имели какое-то представление о том, что ядерные реакторы несут риск аварий, а не только злоупотребления. Прежние руководители уйдут. Вся отрасль как она сейчас есть будет ликвидирована.

У ядерных реакторов могут быть негативные внешние эффекты. Частным организациям не позволено ни перед кем не отчитываясь строить их где попало, получать свои денежки и обобществлять риски.

Все нынешние менеджеры по псевдо-безопасности-суперинтеллекта из существующих организаций, похоже, не замечают, насколько они ниже уровня Чернобыля (а их собственные руководители, конечно, не хотят, чтобы им такое говорили). Этим людям не дадут управлять новыми проектами.

Но самое важное: ещё долго никому будет нельзя складывать кучи урановых кирпичей. Пока не появится ГОРАЗДО лучшее понимание того уровня интеллекта, что даже не взрывоопасен, но при котором ядерный реактор уже достаточно умён, чтобы подделывать показания своих индикаторов.

Вы можете себе представить, чтобы ядерные реакторы, работающие на достаточно высокой мощности, могли планировать, как манипулировать индикаторами, чтобы обманывать своих операторов? При любых обстоятельствах?

Нет, взрослые из NHTSA не приняли бы оправдание «Никто не знает, не отыгрывает ли просто он роль плохого реактора.»
Если бы после Чернобыля выяснилось простое научное наблюдение, что с какой-то мощности ядерные реакторы иногда развивают достаточно самостоятельности, чтобы активно обманывать своих операторов… Это прикрыло бы всю ядерную отрасль. Все бы поняли, что на возвращение хотя бы части той безопасности, что была в Чернобыле, потребуются десятилетия. В ядерной отрасли привыкли к уровню безопасности «Чернобыль+».

Но, конечно, даже это никогда не было главной проблемой. По-настоящему большая проблема — если реактор представляет собой гигантский чёрный ящик из миллиардов непонятных чисел, на прочтение которых ушло бы больше человеческой жизни, и которые люди практически не могут интерпретировать.

Если никто не знает, что происходит внутри чанов с инопланетной жижей, которая сильно нагревается и используется для производства ценного электричества (нет, дорогие мои, знание, из какого сплава состоят сами чаны, не считается), вы никогда, никогда не достигнете уровня безопасности «Чернобыль+», и предполагать обратное просто глупо.
И это очевидно с первого взгляда, если вы вообще пытаетесь заиметь реальные стандарты безопасности.

Если вы попросите кого-то с правильным настроем поднять индустрию СИИ до стандарта безопасности «Чернобыль+», они вырубят все чаны с непонятной (и то и дело обманчивой) кипящей инопланетной жижей.

И если вы спросите их: «Сколько нужно времени, чтобы довести индустрию СИИ хотя бы до стандартов безопасности Чернобыля? Сколько месяцев до перезапуска?», они только вздохнут и присядут для долгого разговора о том, что безопасность уровня Чернобыля — это вопрос десятилетий, а не лет.

Только после этого конец-света-из-за-СИИ потребует нарушения безопасности как в Чернобыле.

Только после этого могут появиться какие-то книги с инструкциями и какие-то технические убеждения, которые, если не нарушаются, означали бы, что реактор вообще МОЖЕТ оказаться безопасным.

Если вы хотите, чтобы ваш реактор в самом деле не расплавился, это, конечно, сложнее. А если вы хотите, чтобы работающая индустрия СИИ не привела к концу света, это намного сложнее.

Ну ладно. Вот каково это было — смотреть, как историки анализируют Чернобыль (это казалось безопаснее в плане подвержения себя дезинформации, чем действительно смотреть сам сериал) и думать: «У этих ребят определённо были стандарты безопасности повыше, чем у индустрии СИИ.»

Перевод:

Claude, Выменец Максим

Ссылка на оригинал:

https://x.com/ESYudkowsky/status/1876644045386363286

Оцените качество перевода:

Короткая ссылка сюда: lesswrong.ru/4525