Вы здесь

Главные вкладки

Безопасность CИИ с чистого листа. Цели и агентность

Ричард Нго

1.Основы для рассуждений про агентность
2.Вероятность разработки высокоагентного СИИ
3.Цели как обобщённые концепты
4.Группы и агентность

Фундаментальный повод к беспокойству за аргумент второго вида – это что ИИ получит слишком много власти над людьми и использует эту власть не нравящимся нам способами. Почему ИИ получит такую власть? Я различаю три возможности:

ИИ добивается власти ради достижения других целей, т.е. она для него инструментальная ценность.
ИИ добивается власти ради неё самой, т.е. она для него финальная цель.
ИИ получает власть, не добиваясь её; например, потому, что её ему дали люди.

На первой возможности сосредоточено большинство обсуждений, и я потрачу большую часть этого раздела на неё. Вторая не была так глубоко исследована, но, по моему мнению, всё же важна; я быстро пройдусь по ней в этом и следующем разделах. Вслед за Кристиано, я назову агентов, подпадающих под эти две категории ищущими-влияния. Третья возможность в основном не попадает в тему этого доклада, который фокусируется на опасности намеренного поведения продвинутых ИИ, но я чуть-чуть затрону её здесь и в последнем разделе.

Ключевая идея за первой возможностью – это сформулированный Бостромом тезис инструментальной конвергенции. Он утверждает, что есть некоторые инструментальные цели, чьё достижение увеличивает шансы реализации финальных целей агента для широкого диапазона этих финальных целей и широкого диапазона ситуаций. Примерами таких инструментальных целей служат самосохранение, накопление ресурсов, технологическое развитие и самоулучшение, все из которых полезны для выполнения дальнейших крупномасштабных планов. Я думаю, что эти примеры лучше характеризуют ту власть, о которой я тут говорю, чем какое-нибудь более явное определение.

Однако, связь между инструментально конвергентными целями и опасным преследованием власти применима только к агентам, чьи финальные цели достаточно крупномасштабны, чтобы они получали выгоду от этих инструментальных целей и определяли и добивались их даже когда это ведёт к экстремальным результатам (набор черт, которые я называю ориентированной на цели агентностью). Не совсем ясно, что СИИ будут такими агентами или иметь такие цели. Интуитивно кажется, что будут, потому что мы все имеем опыт преследования инструментально конвергентных целей, к примеру, зарабатывания и сохранения денег, и можем представить, насколько бы мы были в них лучше, если бы были умнее. Но, так как эволюция вложила в нас много полезных краткосрочных мотиваций, сложно определить, в какой мере человеческое ищущее влияния поведение вызвано рассуждениями про инструментальную полезность для крупномасштабных целей. Наше завоевание мира не требовало, чтобы люди выстраивали стратегию на века – только чтобы много отдельных людей довольно ограниченно увеличивали собственное влияние – изобретая немного лучшие инструменты или исследуя чуть дальше.

Следовательно, нам следует серьёзно отнестись и к возможности, что суперинтеллектуальный СИИ будет ещё меньше чем люди сосредоточен на достижении крупномасштабных целей. Мы можем представить, как они преследуют финальные цели, не мотивирующие к поиску власти, например, деонтологические или маломасштабные. Или, может быть, мы создадим «ИИ-инструменты», которые будут очень хорошо подчиняться нашим инструкциям, не обладая собственными целями – как калькулятор не «хочет» ответить на арифметический вопрос, но просто выполняет переданные ему вычисления. Чтобы понять, какие из этих вариантов возможны или вероятны, нам нужно лучше понять природу целей и ориентированной на цели агентности. Таков фокус этого раздела.

Основы для рассуждений про агентность

Для начала критично провести различие между целями, для выполнения которых агент был отобран или спроектирован (их я назову его проектными целями), и целями, которые агент сам хочет достигнуть (их я просто назову «целями агента»)1. К примеру, насекомые могут участвовать в сложных иерархических обществах только потому, что эволюция дала им необходимые для этого инстинкты: «компетенцию без понимания» по терминологии Деннета. Этот термин также описывает нынешние классификаторы картинок и (наверное) созданные обучением с подкреплением агенты вроде AlphaStar и OpenAI Five: они могут быть компетентны в достижении своих проектных целях без понимания, что это за цели, или как их действия помогут их достигнуть. Если мы создадим агентов, чьими проектными целями будет накопление власти, но сами агенты не будут иметь такой цели (к примеру, агент играет на бирже без понимания того, какое влияние это оказывает на общество), то это будет считаться третьей из указанных выше возможностей.

В этом разделе я, напротив, заинтересован в том, что значит для агента иметь свою собственную цель. Три существующих подхода попыток ответить на этот вопрос – это максимизация ожидаемой полезности Джона фон Неймана и Оскара Моргенштерна, позиция намерений Дэниэла Деннета, и меса-оптимизация Хубингера и др. Я, впрочем, не думаю, что любой из этих подходов адекватно характеризует тот тип направленного на цели поведения, которое мы хотим понять. Хоть мы и можем доказывать элегантные теоретические результаты о функциях полезности, они настолько обобщены, что практически любое поведение может быть описано как максимизация какой-то функции полезности. Так что этот подход не ограничивает наши ожидания от мощных СИИ2. В то же время Деннет заявляет, что рассмотрение позиций намерения систем может быть полезно для предсказаний о них – но это работает только при наличии предшествующего знания о том, какие цели система наиболее вероятно имеет. Предсказать поведение нейросети из триллиона параметров – совсем не то же самое, что применить позиции намерения к существующим артефактам. И хоть у нас есть интуитивное понимание сложных человеческих целей и того, как они переводятся в поведение, в какой степени осмысленно распространять эти убеждения об ориентированном на цели поведении на ИИ – это тот самый вопрос, для которого нам нужна теория агентности. Так что несмотря на то, что подход Деннета предоставляет некоторые ценные прозрения – в частности, что признание за системой агентности – это выбор модели, применимый только при некоторой абстракции – я думаю, что у него не получается свести агентность к более простым и понятным концепциям.

В дополнение к этому, ни один из подходов не рассматривает ограниченную рациональность: идею, что системы могут «пытаться» достичь цели, не совершая для этого лучших действий. Для определения целей ограниченно рациональных систем, нам придётся подробно изучить структуру их мышления, а не рассматривать их как чёрные ящики с входом и выходом – другими словами, использовать «когнитивное» определение агентности вместо «поведенческих», как рассмотренные выше. Хубингер и другие используют когнитивное определение в их статье Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения: «система есть оптимизатор, если она совершает внутренний поиск в некотором пространстве (состоящем из возможных выводов, политик*, планов, стратегий или чего-то вроде этого) тех элементов, которые высоко оцениваются некой целевой функцией, явно воплощённой внутри системы». Я думаю, что это перспективное начало, но тут есть некоторые значительные проблемы. В частности, концепт «явного воплощения» кажется довольно хитрым – что именно (если хоть что-то) явно воплощено в человеческом мозге? И их определение не проводит важного различия между «локальными» оптимизаторами вроде градиентного спуска и целенаправленными планировщиками вроде людей.

Мой собственный подход к рассуждениям об агентности пытается улучшить упомянутые подходы через большую конкретность по поводу мышления, которое мы ожидаем от целенаправленных систем. Также как «иметь интеллект» включает набор способностей (как обсуждалось в предыдущем разделе), «быть целенаправленным» включает некоторые дополнительные способности:

Самосознание: система понимает, что она часть мира, и что её поведение меняет мир;
Планирование: она рассматривает широкий диапазон возможных последовательностей поведения (назовём их «планами»), включая длинные;
Консеквенциализм: она решает, какой план лучше, рассматривая ценность их результатов;
Масштабирование: её выбор чувствителен к далёким во времени и пространстве эффектам планов;
Последовательность: она внутренне объединена для выполнения плана, который сочла лучшим;
Гибкость: Она способна гибко адаптировать свои планы при изменении обстоятельств, а не продолжать те же паттерны поведения.

Заметим, что никакую из этих черт не надо интерпретировать как бинарную; напротив, каждая определяет спектр возможностей. Я также не заявляю, что комбинация этих шести измерений – это точная и полная характеристика агентности; только что это хорошая начальная точка и правильный тип рассуждений для анализа агентности. Например, так подсвечивается, что агентность требует комбинации разных способностей – и как следствие, что есть много разных способов быть не максимально агентным. ИИ, высоко поднявшийся по каким-то из этих метрик может быть довольно низок по другим. Рассмотрим по очереди эти черты, и как может выглядеть их недостаток:

Самосознание: для людей интеллект кажется неотъемлемо связанным с перспективой от первого лица. Но СИИ, обученный на абстрактных данных от третьего лица может приобрести довольно сложную модель мира, которая просто не включает в себя его самого или его выводы. Значительно продвинутая языковая или физическая модель может подпадать под эту категорию.
Планирование: высокоинтеллектуальные агенты будут по умолчанию способны создавать большие сложные планы. Но на практике они, как и люди, могут не всегда использовать эту способность. Представим, к примеру, агента, обученного рассматривать только ограниченный тип планов. Миопическое обучение пытается получить таких агентов; более обобщённо, агент может иметь ограничения на рассматриваемые действия. К примеру, система, отвечающая на вопросы, может рассматривать только планы вида «сначала решить подзадачу 1, потом решить подзадачу 2, потом…».
Консеквенциализм: обычно этот термин в философии описывает агентов, которые считают, что моральность их действий зависит только от последствий этих действий. Тут я использую его более обобщённо, чтобы описать агентов, чьи субъективные предпочтения действий зависят в основном от их последствий. Кажется естественным ожидать, что агенты, обученные функцией вознаграждения, определяемой состоянием мира, будут консеквенциалистами. Но заметим, что люди далеки от стопроцентных консеквенциалистов, поскольку мы часто подчиняемся деонтологическим ограничениям или ограничениям типов поддерживаемых нами рассуждений.
Масштабирование: агенты, заботящиеся только о маломасштабных событиях, могут игнорировать крупномасштабные эффекты своих действий. Поскольку агенты всегда обучаются в маломасштабном окружении, выработка крупномасштабных целей требует обобщения (способами, которые я опишу ниже).
Последовательность: людям недостаёт этой черты, когда у нас происходит внутренний конфликт – к примеру, когда наши система 1 и система 2 имеют различающиеся цели – или когда наши цели сильно меняются со временем. Хоть наши внутренние конфликты и могут быть просто артефактом нашей эволюционной истории, нельзя отвергнуть возможности того, что одиночные СИИ приобретут модульность, приводящую к сравнимым проблемам. Однако, естественнее всего думать об этой черте в контексте коллектива, где отдельные его члены могут иметь более или менее схожие цели, и могут в большей или меньшей степени координироваться.
Гибкость: негибкий агент может возникнуть в окружении, в котором обычно достаточно одного изначального плана, или где приходится делать компромисс между составлением и выполнением планов. Такие агенты могут демонстрировать сфексное поведение. Другим интересным примером может быть мультиагентная система, в которой много ИИ вкладываются в разработку плана – так что отдельный агент может исполнить план, но не может его пересмотреть.

Система, отвечающая на вопросы (так же известная как оракул), может быть реализована как агент, лишённый и планирования, и консеквенциализма. Для действующего в реальном мире ИИ, я думаю, важно рассмотреть масштаб его целей, я займусь этим дальше в этом разделе. Мы можем оценивать и другие системы по этим критериям. У калькулятора нет их всех. Немного более сложные программы, вроде GPS-навигатора, вероятно, стоит рассматривать в как некоторой ограниченной степени консеквенциалистов (он направляет пользователя по-разному в зависимости от плотности трафика), и, возможно, как обладателей других черт тоже, но лишь чуть-чуть. Большинство животных в некоторой степени обладают самосознанием, консеквенциализмом и последовательностью. Традиционная концепция СИИ имеет все эти черты, что даёт такому СИИ способность следовать ищущим-влияние стратегиям по инструментальным мотивам. Однако, заметим, что эта направленность на цели – не единственный фактор, определяющий, будет ли ИИ ищущим-влияние: содержание его целей также имеет значение. Высокоагентный ИИ, имеющий цель оставаться подчинённым людям, может никогда не исполнять ищущие-влияние действия. Как ранее замечено, ИИ, имеющий финальную целью получения власти, может быть ищущим-влияние, даже не обладая большинством этих черт. Я рассмотрю пути оказания влияния на цели агента в следующем разделе про согласование.

Вероятность разработки высокоагентного СИИ

Насколько вероятно, что, разрабатывая СИИ, мы создадим систему с всеми шестью перечисленными мной выше чертами? Один из подходов к ответу на этот вопрос включает предсказывание, какие типы архитектуры моделей и алгоритмов обучения будут использованы – к примеру, будут ли они безмодельными или, напротив, основанными на модели? Мне кажется, такая линия рассуждения недостаточно абстрактна, поскольку мы просто не знаем о мышлении и обучении достаточно, чтобы отобразить их в высокоуровневые решения проектирования. Если мы обучим СИИ безмодельным способом, я предсказываю, что он всё равно будет планировать с использованием внутренней модели. Если мы обучим основанный на модели СИИ, я предсказываю, что его модель будет настолько абстрактной и иерархичной, что взгляд на его архитектуру очень мало скажет нам о настоящем происходящем там мышлении.

На более высоком уровне абстракции, я думаю, что для высокоинтеллектуального ИИ будет проще приобрести эти компоненты агентности. Однако, степень агентности наших наиболее продвинутых ИИ будет зависеть от режима обучения, которым они будут получены. К примеру, наши лучшие языковые модели уже обобщают свои тренировочные данные достаточно хорошо, чтобы отвечать на довольно много вопросов. Я могу представить, как они становятся всё более и более компетентными с помощью обучения с учителем и без учителя, до тех пор, когда они станут способны отвечать на вопросы, ответы на которые неизвестны людям, но всё ещё остаются лишёнными всех указанных черт. Можно провести аналогию с человеческой зрительной системой, которая совершает очень полезное мышление, но не очень «ориентирована на цели» сама по себе.

Мой основной аргумент – что агентность – это не просто эмерджентное свойство высокоинтеллектуальных систем, но скорее набор способностей, которые должны быть выработаны при обучении, и которые не возникнут без отбора по ним. Одно из поддерживающих свидетельств – парадокс Моравека: наблюдение, что кажущиеся наиболее сложными для людей когнитивные навыки зачастую очень просты для ИИ, и наоборот. В частности, парадокс Моравека предсказывает, что создание ИИ, выполняющих сложную интеллектуальную работу вроде научных исследований может на самом деле быть проще, чем создание ИИ, разделяющего более глубокие присущие людям черты вроде целей и желаний. Для нас понимание мира и изменение мира кажутся очень тесно связанными, потому что на наших предков действовал отбор по способности действовать в мире и улучшать своё положение в нём. Но если это интуитивное рассуждение ошибочно, то даже обучение с подкреплением может не выработать все аспекты направленности на цели, если цель обучения – отвечать на вопросы.

Однако, есть и аргументы в пользу того, что сложно обучить ИИ выполнять интеллектуальную работу так, чтобы они не выработали направленную на цели агентность. В случае людей, нужда взаимодействия с неограниченным окружением для достижения своих целей толкнула нас на развитие нашего сложного обобщённого интеллекта. Типичный пример аналогичного подхода к СИИ – это обучение с подкреплением в сложном симулированном 3D-окружении (или, возможно, через длинные разговоры в языковой среде). В таких окружениях, агенты, планирующие эффекты своих действий на длинных временных промежутках будут в целом справляться лучше. Это подразумевает, что наши ИИ будут подвержены оптимизационному давлению в сторону большей агентности (по моим критериям). Мы можем ожидать, что СИИ будет более агентным, если он будет обучен не просто в сложном окружении, но в сложном соревновательном мультиагентном окружении. Так обученным агентам будет необходимо уметь гибко адаптировать планы под поведение соперников; и им будет выгодно рассматривать больший диапазон планов на большем временном масштабе, чем соперники. С другой стороны, кажется очень сложным предсказать общий эффект взаимодействий между многими агентами, например, в людях, они привели к выработке (иногда не-консеквенциалистского) альтруизма.

Сейчас есть очень мало уверенности в том, какие режимы обучения лучше подходят для создания СИИ. Но если есть несколько рабочих, то стоит ожидать, что экономическое давление будет толкать исследователей к использованию в первую очередь тех, которые создают наиболее агентных ИИ, потому что они будут наиболее полезными (предполагая, что проблемы согласования не становятся серьёзными, пока мы не приближаемся к СИИ). В целом, чем шире задача, для которой используется ИИ, тем ценнее для него рассуждать о том, как достигнуть назначенную ему цель путями, которым он не был специально обучен. Например, отвечающая на вопросы система с целью помогать своим пользователям понимать мир может быть куда полезнее той, которая компетентна в своей проектной цели выдачи точных ответов на вопросы, но не имеет своих целей. Вообще я думаю, что большинство исследователей безопасности ИИ выступают за приоритизацию направлений исследований, которые приведут к менее агентным СИИ, и за использование этих СИИ для помощи в согласовании более агентных поздних СИИ. Ведётся работа и над тем, чтобы напрямую сделать СИИ менее агентным (как квантилизация), хотя в целом она сдерживается недостатком ясности вокруг этих концептов.

Я уже рассуждал о рекурсивном улучшении в предыдущем разделе, но ещё кое-что полезно подсветить здесь: раз большая агентность помогает агенту достигать своих целей, способные к модификации себя агенты будут иметь стимул делать себя более агентными (как люди уже пытаются, хоть и ограниченно)3. Так что стоит рассматривать и такой тип рекурсивного улучшения; соображения из предыдущего раздела к нему также в основном применимы.

Цели как обобщённые концепты

Следует заметить, я не ожидаю, что обучающие задачи будут иметь такой же масштаб и продолжительность, как волнующие нас задачи в реальном мире. Так что СИИ не будет напрямую отбираться по крупномасштабным или долгосрочным целям. Но вероятно, что выученные в тренировочном окружении цели будут обобщаться до больших масштабов, так же как люди выработали крупномасштабные цели из эволюции в относительно ограниченном окружении наших предков. В современном обществе люди часто тратят всю свою жизнь, пытаясь значительно повлиять на весь мир – с помощью науки, бизнеса, политики, и многого другого. И некоторые люди стремятся повлиять на весь мир на века, тысячелетия, или даже дольше, несмотря на то, что никогда не было значительного эволюционного отбора людей по беспокойству о том, что произойдёт через несколько сотен лет, или по обращению внимания на события с другой стороны планеты. Это даёт нам повод к беспокойству, что СИИ, не обученный явно преследовать амбициозные крупномасштабные цели, всё равно может это делать. Я также ожидаю, что исследователи будут активно стремиться к обобщениям такого вида в ИИ, потому что на это полагаются некоторые важные применения. Для долгосрочных задач вроде управления компанией СИИ понадобится способность и мотивация выбирать между возможными действиями с учётом их мировых последствий на протяжении лет или десятилетий.

Можно ли конкретнее описать, как выглядит обобщение целей на намного большие масштабы? Учитывая проблемы с подходом максимизации ожидаемой полезности, которые я описывал раньше, не кажется подходящим думать о целях как о функциях полезности от состояния мира. Скорее, цели агента можно сформулировать в терминах тех концептов, которыми он оперирует – независимо от того, относятся ли они к его мыслительному процессу, деонтологическим правилам или исходам во внешнем мире4. И пока концепты агента гибко подстраиваются и обобщаются к новым обстоятельствам, цели, отсылающие к ним, останутся теми же. Сложно и спекулятивно пытаться описать, как может произойти такое обобщение, но, грубо говоря, стоит ожидать, что интеллектуальные агенты способны абстрагироваться от разницы между объектами и ситуациями, которые имеют высокоуровневые сходства. К примеру, после обучения в симуляции, агент может перенести своё отношение к объектам и ситуациям в симуляции на похожие в (куда большем) реальном мире5. Альтернативно, обобщение может произойти из постановки цели: агент, которого всегда вознаграждали за накопление ресурсов в тренировочном окружении, может встроить внутреннюю цель «накопить как можно больше ресурсов». Похожим образом, агенты, обученные соперничать в маломасштабной области могут выработать цель превзойти друг друга, остающуюся и при действии на очень больших масштабах.

С такой точки зрения чтобы предсказать поведение агента, надо рассмотреть, какими концептами он обладает, как они будут обобщаться, и как агент будет о них рассуждать. Я знаю, что это выглядит до невозможности сложной задачей – даже рассуждения человеческого уровня могут приводить к экстремальным непредсказуемым заключениям (как показывает история философии). Однако, я надеюсь, что мы можем вложить в СИИ низкоуровневые настройки ценностей, которые направят их высокоуровневые рассуждения в безопасных направлениях. Я рассмотрю некоторые подходы к этому в следующем разделе про согласование.

Группы и агентность

Раз я рассмотрел коллективные СИИ к предыдущем разделе, важно взглянуть, подходит ли мой подход к пониманию агентности так же и к группам агентов. Думаю, да: нет причин, почему описанные мной черты должны быть присущи одиночной нейросети. Однако отношения между целенаправленностью коллективного СИИ и целенаправленностями его членов могут быть не просты, они зависят от внутренних взаимодействий.

Одна из ключевых переменных – это насколько много опыта (и какие типы) взаимодействия друг с другом во время обучения имеют члены коллективного СИИ. Если они в первую очередь обучались кооперации, это увеличивает вероятность того, что получившийся коллективный СИИ будет целенаправленным агентом, даже если его отдельные члены не особо агентны. Но есть хорошие причины ожидать, что процесс обучения будет включать некоторую конкуренцию, которая уменьшит их последовательность как группы. Внутренняя конкуренция также может способствовать краткосрочному ищущему-влияния поведению, поскольку каждый член выучится поиску влияния для того, чтобы превзойти других. Особо выдающийся пример – человечество смогло захватить мир за тысячелетия не с помощью какого-то общего плана это сделать, а, скорее, как результат попыток многих индивидуумов распространить своё краткосрочное влияние.

Ещё возможно, что члены коллективного СИИ вообще не будут обучены взаимодействию друг с другом, в таком случае кооперация между ними будет целиком зависеть от их способности обобщать выработанные навыки. Сложно представить такой случай, поскольку человеческий мозг очень хорошо адаптирован для групповых взаимодействий. Но пока люди и согласованные СИИ будут удерживать подавляющую долю власти в мире, будет естественный стимул для СИИ, преследующих несогласованные цели, координировать друг с другом для расширения своего влияния за наш счёт6. Преуспеют ли они – зависит от того, какие механизмы координации они будут способны придумать.

Второй фактор – насколько много специализации в коллективном СИИ. В случае когда он состоит только из копий одного агента, нам стоит ожидать, что они будут очень хорошо друг друга понимать и по большей части разделять цели. Тогда мы сможем предсказать целенаправленность всей группы, изучив оригинального агента. Но стоит рассмотрения и случай коллектива, состоящего из агентов с разными навыками. С таким типом специализации коллектив в целом может быть куда более агентным, чем его составляющие, что может упростить безопасный запуск частей коллектива.

1. ИИ-системы, обучившиеся преследовать цели, также известны как меса-оптимизаторы, согласно статье Хубингера и др. «Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения».
2. Существуют аргументы, пытающиеся это сделать. К примеру, Элиезер Юдковский тут отстаивает, что «хоть исправимость, вероятно, имеет некоторое ядро меньшей алгоритмической сложности, чем все человеческие ценности, это ядро, скорее всего, очень сложно найти или воспроизвести обучением на размеченных людьми данных, потому что послушание – это необычайно противоестественная форма мышления, в том смысле, в котором простая функция полезности – естественная.» Однако, замечу, что этот аргумент полагается на интуитивное разделение естественных и противоестественных форм мышления. Это в точности то, что, как я думаю, нам надо понять, чтобы создать безопасный СИИ – но пока что было мало явных исследований на эту тему.
3. Вроде бы, это идея Анны Саламон, но, к сожалению, я не смог отследить конкретный источник.
4. К примеру, когда люди хотят быть «кооперативными» или «моральными», они зачастую не просто думают о результатах, но скорее о том, какие типы действий следует исполнять, или о типах процедур принятия решений, которые следует использовать для выбора действий. Дополнительная сложность – что люди не имеют полного интроспективного доступа к своим концептам – так что надо также рассматривать подсознательные концепты.
5. Представьте, что это произошло с вами, и вас вытащили «из симуляции» в реальный мир, который очень похож на то, что вы уже испытывали. По умолчанию вы скорее всего захотите питаться хорошей едой, иметь полноценные отношения и так далее, несмотря на пережитый радикальный онтологический сдвиг.
6. В дополнение к первому приходящему в голову аргументу, что интеллект увеличивает способность к координации, скорее всего СИИ в силу своей цифровой природы будет иметь доступ к недоступным людям способам обеспечения кооперации. К примеру, СИИ может послать потенциальным союзникам копию себя для инспекции, чтобы увеличить уверенность в том, что ему можно доверять. Однако, есть и человеческие способы, к которым СИИ будут иметь меньше доступа – к примеру, подвергание себя физической опасности как сигнал честности. И возможно, что относительная сложность обмана и распознавания обмана сдвигается в пользу второго для более интеллектуальных агентов.

Перевод:

Максим Выменец

Ссылка на оригинал:

AGI safety from first principles: Goals and Agency

Оцените качество перевода:

Короткая ссылка сюда: lesswrong.ru/1171