Вы здесь

Главные вкладки

Цель не оправдывает средства (среди людей)

Элиезер Юдковский

«Если не цель оправдывает средства, то что оправдывает?»
— приписывается разным источникам

«Я рассматриваю себя как сущность, запущенную на враждебном оборудовании.»
— Джастин Корвин

Я упоминал, что, возможно, у людей эволюционно появилась некая схема политической революции: сначала они верят в своё нравственное превосходство над порочной властью, а в итоге сами поддаются её развращающему влиянию. И речь здесь не идёт о злых умыслах. Просто предки, которые так поступали, имели больше шансов оставить потомков.

Это соответствует шаблону:

В некоторых случаях люди эволюционировали так, чтобы думать, что они делают X по просоциальной причине Y, но когда они действительно делают X, срабатывают другие адаптации, ведущие к достижению выгодных лично для них последствий Z.

Отсюда я перейду к моему главному вопросу, который очень далеко выходит за рамки классической байесовской теории принятия решений:

Что, если я запущен на испорченном оборудовании?

В подобном случае вы можете делать даже такие, казалось бы, парадоксальные утверждения (полную чепуху с точки зрения классической теории принятия решений!), как:

Цель не оправдывает средства.

Ведь если вы запущены на испорченном оборудовании, то внутреннее убеждение о том, что захват вами власти выглядит праведным и альтруистичным поступком, может не являться достаточным свидетельством в пользу того, что захват власти и вправду является тем, что принесет племени наибольшую пользу.

Благодаря силе наивного реализма испорченное оборудование, на котором вы работаете, и испорченные представления, которые оно вычисляет, будут казаться тканью самой реальности — просто тем, каковы вещи есть на самом деле.

И вот, мы получаем странно выглядящее правило: «ради блага своего племени не жульничайте ради захвата власти, даже если племя от этого выиграет».

И, возможно, именно такая формулировка будет наиболее мудрой. Если сказать просто «когда кажется, что это принесет племени чистую выгоду», то обязательно появятся люди, которые скажут «но это не просто кажется — если я стану самым главным, племя действительно от этого выиграет».

Понятие ненадежного оборудования выглядит чем-то совершенно выходящим за рамки классической теории принятия решений. (Я пока не могу сказать, как это влияет на рефлексивную теорию принятия решений, но, похоже, это проблема подходящего для неё уровня.)

Но на человеческом уровне кажется, что проблему легко решить. Как только вы обнаруживаете искажение, вы создаёте правила, в которых искаженное поведение описывается и объявляется незаконным. Правило, которое гласит «ради блага племени не жульничайте ради захвата власти, даже ради блага племени». Или «ради блага племени, не убивайте даже ради блага племени».

И после этого приходит философ и представляет свой «мысленный эксперимент»: создаёт сценарий, в котором, по условиям, единственный возможный способ спасти пять невинных жизней — это убить одного невинного человека, и это убийство действительно спасёт пять жизней. «Вагонетка едет по пути, на котором она собьёт пятерых невинных людей, и вы не можете предупредить их, чтобы они ушли с её дороги, но вы можете столкнуть одного невинного человека под вагонетку, и это её остановит. Других вариантов нет. Что будете делать?»

Столкнувшись с этим мысленным экспериментом, альтруистичный человек, принявший определенные деонтологические запреты (которые выглядят вполне оправданными, учитывая исторические статистические данные о последствиях определенного рода рассуждений на ненадёжном оборудовании), вероятно, испытает существенный душевный дискомфорт.

Итак, вот ответ на сценарий этого философа, которого я ещё не слышал от его жертв:

«Вы утверждаете, что единственный возможный способ спасти пять невинных жизней — это убить одного невинного человека, и что это убийство действительно спасёт пять жизней, и что эти факты достоверно мне известны. Но поскольку я работаю на испорченном оборудовании, я не могу находиться в том эпистемическом состоянии, которое вы хотите, чтобы я представил. Поэтому я отвечу, что в том обществе, которое состоит из искусственных интеллектов, считающихся личностями и лишенных какой-либо врожденной склонности быть развращенными властью, для ИИ было бы правильно убить одного невинного ради спасения пятерых. И что, более того, все его соплеменники с этим бы согласились. Однако я отказываюсь распространять этот ответ на себя, потому что эпистемическое состояние, которое вы просите меня представить, может существовать только среди существ, не являющихся людьми.»

Сейчас это кажется мне уловкой. Я думаю, что вселенная достаточно жестока, и иногда мы действительно вынуждены решать подобные задачи. Люди, предлагающие подобные мысленные эксперименты, вполне могут заслуживать такого ответа, какой дан выше. Но в любой человеческой правовой системе на самом деле есть какой-то ответ на вопрос «сколько невинных людей мы можем посадить в тюрьму ради привлечения к ответственности виновных?», даже если это число нигде не записано.

Как человек, я стараюсь соблюдать деонтологические запреты, которые люди установили ради того, чтобы жить в мире друг с другом. Но я не думаю, что наши деонтологические запреты буквально, по своей сути, в обход консеквенциализма, являются терминально правильными. Я поддерживаю принцип «цель не оправдывает средства» как принцип для людей, работающих на испорченном оборудовании, но я бы не одобрил его как принцип для общества, состоящего из искусственных интеллектов, производящих хорошо выверенные оценки. (Если вы рассматриваете случай, где в обществе людей есть один ИИ, это потребует других соображений, — например, о том, учатся ли люди на вашем примере.)

Поэтому я не сказал бы, что хорошо спроектированный Дружественный ИИ (ДИИ) обязательно должен отказаться сталкивать человека с моста, чтобы остановить вагонетку. Очевидно, я ожидал бы, что любой нормальный сверхразум предложит третью альтернативу, которая ещё лучше. Но предположим, что есть действительно лишь два варианта, и ДИИ считает, что разумнее столкнуть одного человека с моста — даже с учетом побочных эффектов, связанных с тем, что кто-то это увидит, будет об этом рассказывать и так далее. Даже в этом случае я не посчитал бы опасным сигналом, если бы ИИ заявил, что правильное решение — пожертвовать одним ради спасения пяти. Да, сам я не сталкиваю людей на пути, и не ворую деньги у банков ради финансирования своих альтруистических проектов. Я родился человеком. Но Дружественный ИИ не может оказаться развращённым властью — это всё равно как если бы он начал истекать красной кровью. Склонность к развращению властью — это специфическая биологическая адаптация, которая поддерживается особыми когнитивными контурами, заложенными в нас нашими генами по очевидной эволюционной причине. Эта склонность не появится спонтанно в коде Дружественного ИИ. Во всяком случае, не раньше, чем его транзисторы начнут кровоточить.

Я пошел бы ещё дальше и сказал, что если бы речь шла об умах со встроенным искажением, заставляющим их переоценивать вред окружающим от поступков, приносящих лично им пользу, то им потребовалось бы правило «цель не запрещает средства» — о том, что вы должны делать то, что приносит вам пользу, даже если (кажется, что) это вредит племени. Согласно предположению, если бы в их обществе не было такого правила, они отказались бы дышать из страха использовать чужой кислород, и все бы вымерли. Случайное излишество, при котором кто-то из них извлекает личную выгоду за счёт сообщества, могло бы казаться для них столь же осторожно добродетельным (и действительно было бы столь же осторожно добродетельным), как когда один из нас, людей, из осторожности упускает возможность украсть буханку хлеба, которая на самом деле принесла бы ему больше пользы, чем убытка для торговца (даже учитывая побочные эффекты).

«Цель не оправдывает средства» — это просто консеквенциалистское рассуждение на один метауровень выше. Если на предметном уровне человек начнёт думать, что цель оправдывает средства, это будет иметь ужасные последствия, учитывая наш ненадёжный мозг. Поэтому человек не должен так думать. Но в конечном итоге всё это — по-прежнему консеквенциализм. Это просто рефлексивный консеквенциализм для существ, которые понимают, что их ежесекундные решения принимаются ненадёжным оборудованием.

Перевод:

К. Кирдан

Ссылка на оригинал:

Ends Don’t Justify Means (Among Humans)

Ссылка на оригинал на readthesequences.com:

Ends Don’t Justify Means (Among Humans)

Номер в книге "Рациональность: от ИИ до зомби":

287

Оцените качество перевода:

Короткая ссылка сюда: lesswrong.ru/5117