Теория ценности

Автор: 
Элиезер Юдковский

Где заканчивается рекурсия обоснований

Элиезер Юдковский

Почему я считаю, что Солнце завтра взойдёт?

Потому что в предыдущие дни я тысячи раз видел, как солнце восходит.

Да, но почему я убеждён, что будущее будет похоже на прошлое?

Даже если перейти от поверхностных наблюдений о встающем Солнце, к видимо универсальным и не допускающим исключений законам гравитации и ядерной физики, всё равно без ответа остаётся следующий вопрос: «Почему я считаю, что всё это будет выполняться завтра?»

Я мог бы апеллировать к бритве Оккама, принципу использования наиболее простой теории, удовлетворяющей фактам… но почему следует доверять бритве Оккама? Потому что следование ей приводило к успеху в прошлом? Но разве из этого следует, что бритва Оккама сработает и завтра?

И было сказано:

Наука также зависит от необоснованных допущений. Таким образом, наука фундаментально основана на вере, поэтому не смейте критиковать меня за веру в [глупое-убеждение-№238721].

Я по этому поводу уже писал:

Крайне показательно, что утверждения вида: «Наука основана на вере, вот вам!» - обычно произносятся людьми, считающими веру чем-то хорошим. Тогда почему они говорят: «Наука тоже основана на вере!», столь победоносно высокомерным тоном, а не как будто делают комплимент?

Требование иммунитета к критике редко является хорошим знаком.

Но у нас остаётся вполне законный философский вопрос: если каждое убеждение должно быть обосновано, и эти обоснования также должны быть обоснованы, то как же разрешается эта бесконечная рекурсия?

И, если где-то в конце можно допустить что-то без обоснования, то почему нельзя просто допустить всё что угодно без обоснования?

Иногда примерно таким же образом критикуют байесианство — ведь байесианство требует наличие априорных вероятностей. Складывается впечатление, будто критикующие думают, что проблема индукции — это проблема исключительно байесианства, и её можно избежать, используя классическую статистику.

Впрочем, сперва я покажу, что байесовские правила изменения убеждений действительно не решают проблему индукции сами по себе.

Представьте, что вы достаёте из урны красные и белые мячики. Вот вы достали 9 штук, и 6 из них оказались белыми, а 3 красными. Какова вероятность того, что следующий мячик окажется красным?

Это зависит от ваших исходных убеждений относительно урны. Если вы считаете, что её создатель пользовался генератором случайных чисел со значениями от нуля до единицы и использовал результат как фиксированную вероятность того, что конкретный мячик будет красным, то ответ 4/11 (по правилу Лапласа). Если вы считаете, что урна изначально содержала 10 красных и 10 белых мячей, то ответ 7/11.

Таким образом, при правильно (или, скорее, неправильно) подобранных исходных допущениях нам бы казалось, что шанс того, что Солнце взойдёт завтра, с каждым следующим днем уменьшается… Например, если вы абсолютно априори уверены, что где-то существует огромная бочка, и из неё каждый день достают клочки бумаги, надпись на которых и определяет, взойдёт солнце или же нет (при условии, что в бочке содержится лишь ограниченное количество клочков бумаги с надписью «Да», а выбираются они без возвращения).

В пространстве всех возможных разумов существуют разумы, с анти-оккамовскими и анти-лапласовскими исходными допущениями. Они верят, что чем проще теория, тем менее она правдоподобна и что чем чаще нечто происходит, тем меньше вероятность того, что это повторится.

И если вы спросите у этих странных существ, почему они продолжают использовать допущения, которые, похоже, никогда не работают в реальной жизни… то они ответят: «Потому что это никогда не срабатывало раньше!»

Наверное, из этого можно извлечь урок: «Не рождайся с дурацкими исходными допущениями». Для многочисленных реальных проблем этот принцип невероятно полезен, однако сомневаюсь, что он удовлетворит философов.

Вот как я пытаюсь решить эту проблему самостоятельно. Я подхожу к таким вопросам как «Следует ли мне доверять своему мозгу?» или «Следует ли мне доверять бритве Оккама?», как будто они ничем не отличаются от других вопросов.

Следует ли мне доверять бритве Оккама? Насколько хорошо (какая-либо конкретная формулировка) бритвы Оккама работает на практике? Какие обоснования из области теории вероятностей я могу найти для неё? Когда я смотрю на вселенную, похоже ли, что это та вселенная, в которой хорошо работает бритва Оккама?

Следует ли мне доверять своему мозгу? Очевидно, нет –– он не всегда работает правильно. Тем не менее, человеческий мозг кажется куда более могущественным, чем самые сложные компьютерные программы, которым я мог бы доверять в противном случае. Насколько хорошо мой мозг работает на практике, с какими задачами он успешно справляется?

Если рассмотреть мой мозг с точки зрения причин и следствий — каким образом он появился с точки зрения естественного отбора, — то, с одной стороны, я вижу множество причин в нём сомневаться, ведь мой мозг был оптимизирован для работы в условиях древней саванны, а не для занятий математикой. Однако, с другой стороны, понятно, почему, грубо говоря, мозг в принципе способен работать. Естественный отбор быстро бы избавился от мозгов, которые совершенно неспособны рассуждать. Мозг, придерживающийся анти-оккамовских или анти-лапласианских исходных допущений был бы слишком вреден для носителя.

Мои рассуждения — это не объявление о том, что я внезапно прекращаю задавать вопросы и искать обоснования. Когда исследование некоторого вопроса для меня упирается в бритву Оккама, мой мозг или ещё что-нибудь неоспоримое, я продолжаю исследовать тему. Но для этого я неизбежно использую мой нынешний мозг и известные мне способы рассуждать. А чем ещё я могу воспользоваться?

Ведь неважно, какое решение я приму, потому что приму его именно я. Даже если бы я решил доверять чему-то внешнему, какой-либо компьютерной программе, довериться ей всё равно было бы именно моим решением.

Очень важно уметь отказываться от убеждений, у которых нет никаких обоснований. Иногда я говорю, что фундаментальный вопрос рациональности это: «Почему ты веришь в то, во что ты веришь?» Я совершенно не хотел бы, чтобы какие-то мои слова можно было бы истолковать так, словно я допускаю, что возможно хотя бы одно утверждение, не нуждающееся в обосновании.

Что само по себе является не самой здоровой мотивацией. Не всегда можно избежать риска. А если кто-то раздражает вас своей глупостью, нельзя придумать противоположность этой глупости и получить что-то разумное.

И всё же я подчеркну разницу между следующими высказываниями:

Вот допущение, которое я не могу обосновать. Это допущение следует просто принять за истину без какого-либо дальнейшего изучения.

И:

Вот я продолжаю изучать это допущение, используя всю мощь моего нынешнего разума — а не, скажем, генератора случайных чисел или волшебного шара. При этом я осознаю, что мой нынешний разум основывается на этом самом допущении.

И всё же, разве не было бы здорово, если бы мы могли исследовать, насколько можно доверять собственному мозгу, не пользуясь собственным разумом? Не было бы лучше, если бы мы могли решать, как следует думать, не опираясь на свой текущий уровень рациональности?

Хм-м. Если поставить вопрос таким образом, начинает создаваться впечатление, что возможно и нет.

Э. Т. Джейнс повторял, что всегда следует использовать всю доступную вам информацию. Он был теоретиком байесианства, и ему приходилось распутывать парадоксы, созданные другими людьми, которые в своих вычислениях на разных этапах пользовались разной информацией. Принцип «Всегда прикладывай максимум усилий» кажется не менее достойным чем «Никогда не делай ничего напоминающего логический круг». В конце концов, альтернатива к тому чтобы стараться как можно сильнее –– делать меньше, чем можно было бы.

Но всё же… разве не было бы здорово, если бы существовал способ обосновать бритву Оккама или то, что будущее будет похожим на прошлое, без допущения, что способы рассуждения успешно работавшие в прошлом лучше тех, что стабильно приводят к провалу?

Разве не было бы здорово, если бы существовала некая цепочка обоснований, которая не упирается в непроверяемые допущения и не вынуждена проверять саму себя на основании своих же правил? Которая начавшись с нуля могла бы убедить идеального студента философии абсолютной пустоты?

Ну, это определённо было бы любопытным, но я не ожидаю увидеть ничего подобного в ближайшее время. В машине нет идеально чистого призрака. Нет такого аргумента, что смог бы убедить камень.

Так что даже если кому-то удастся решить проблему Первопричины и по-настоящему обосновать то, что вселенная устроена просто — не основываясь при этом на простоте вселенной, — я всё равно буду ожидать, что это объяснение поймёт лишь наделённый разумом слушатель, а, например, камень — не поймёт. Слушатели, изначально не способные применить modus ponens, остаются не у дел.

Так что же в итоге происходит, когда кто-то спрашивает меня: «Почему я верю в то, во что я верю?»

В настоящее время я начинаю ходить по следующему циклу объяснений: «Я предсказываю будущее, полагая, что оно будет напоминать прошлое на наиболее простом и стабильном уровне организации материи, что я способен обнаружить, потому что ранее следование этому правило обычно давало хорошие результаты. И используя простое допущение о простоте вселенной, я могу понять, почему оно даёт хорошие результаты. И я даже могу понять, каким образом мой мозг мог эволюционировать так, чтобы наблюдать вселенную с определённой степенью точности, при условии, что мои наблюдения верны».

Однако… разве это рассуждение не оправдывает порочный логический круг?

Ведь я только что оправдал доверие к собственному разуму с помощью собственного разума, а не чего-то ещё.

Вообще, мы обычно отметаем логические круги именно из-за таких рассуждений. Мы хотим получать непротиворечивую причинно-следственную историю того, как наш мозг приходит к некоему знанию, историю, почему мы считаем надёжным процесс, с помощью которого получаем убеждения. Именно эта потребность стоит за фундаментальным вопросом рациональности: «Почему вы верите в то, во что вы верите?»

Теперь представьте, что вы написали на листке бумаги: «1) Все, что написано на этом листке бумаги истинно, 2) Масса атома гелия равна 20 граммам». Если бы такой трюк действительно работал, то вы могли бы узнать истинную массу атома гелия, просто приняв на веру логический круг, который его породил. И это позволило бы строить истинную карту вселенной, не выходя из комнаты с задёрнутыми занавесками. Что нарушало бы второй закон термодинамики, создавая информацию из ниоткуда. Поэтому кажется неправдоподобным, что таким образом в вашем разуме могут появиться истинные убеждения.

Даже если вы по какой-то причине поверили бумаге, не видно никаких причин, почему она может соответствовать реальности. Если бы выяснилось, что масса гелия действительно 20 грамм, и именно так написано на бумаге, это было бы просто чудесным совпадением.

В общем случае, нам кажется, что вера в набор утверждений, который обосновывает сам себя, не поможет нам создать карту, соответствующую территории. Мы приходим к этому заключению, размышляя о нашем разуме в контексте причин и следствий. И используем для этого размышления собственный разум.

Но что насчёт выработавшегося у нас большего доверия к более простым убеждениям и убеждения в том, что алгоритмы работавшие в прошлом с большей вероятностью будут работать и в будущем? Даже после размышлений в контексте причин и следствий, кажется, что они всё равно помогают нам строить карту, соответствующую территории.

А как насчёт доверия к непротиворечивости в подобных размышлениях? Представим огромное число разумов, случайно сгенерированных и пришедших в состояние непротиворечивых размышлений. Разве подавляющее большинство не будет ошибаться? Однако, наш разум появился не случайным путём. Он эволюционировал при помощи естественного отбора.

Если данный аргумент кажется вам подозрительным, то забудьте на секунду о проблеме философского обоснования и задайте себе вопрос: «Действительно ли это истина на самом деле?»

(Для чего вы, конечно же, воспользуетесь собственным разумом.)

Это то же самое, что утверждать «Я верю, что Библия – это слово Божие, потому что так утверждается в Библии»?

Могут ли верующие пользоваться аргументом, что слепую веру вложил в них Бог, и поэтому она надёжная опора для рассуждений?

Когда религиозные люди наконец-то отказываются от Библии, это происходит не потому, что они магическим образом прыгают в некое нерелигиозное состояние абсолютной пустоты, в нём заново переосмысливают свои религиозные убеждения в этом нерелигиозном состоянии разума, а затем перескакивают в новое состояние, в котором они уже не имеют религиозных убеждений.

Люди перестают быть религиозными, потому что сомнение проникает даже в религиозный разум. Они замечают, что их молитвы (и что хуже, молитвы, казалось бы, куда более достойных людей) остаются без ответа. Они замечают, что Бог, который говорит с ними в их сердце и даёт вроде бы утешительные ответы о вселенной, не способен сказать им сотый знак после запятой числа пи (что убедило бы гораздо сильнее, будь у Бога такая цель). Они изучают историю о том, как Бог создавал мир и осуждал на вечные муки неверующих, и она кажется бессмыслицей, даже если исходить из их собственных религиозных предпосылок.

Религиозность не делает вас менее человеком. Ваш мозг обладает всё теми же возможностями человеческого мозга. Опасность религиозности в том, что она может помешать вам применять эти способности по отношению к своей религии — помешает полноценной саморефлексии. Люди избавляются от своих ошибок не за счёт того, что переводят себя в состояние идеального философа абсолютной пустоты и переосмысливают свой опыт с чистого листа. Люди избавляются от своих ошибок, подвергая свои убеждения сомнению, используя силу своего текущего разума.

Вот в чём важное различие между размышлением о своём разуме при помощи своего разума (у вас всё равно нет других инструментов) и наличием допущений, которые вы не можете подвергнуть сомнению.

«Я верю, что Библия — это слово Божие, потому что так написано в Библии». Однако, если бы Библия была бы невероятно надёжным источником информации касательно всех прочих вопросов, если бы вместо утверждений, что у кузнечиков четыре ноги, а вселенная была создана за шесть дней, в ней содержалась бы периодическая таблица элементов за века до появления химии, если бы Библия действительно служила нам верой и правдой как источник истины, тогда, вообще-то, нам стоило бы всерьёз рассмотреть дополнительное утверждение, что Библию создал Бог.

Возможно, мы бы не доверяли этому утверждению полностью, потому что даже в этом случае Библию могли создать пришельцы или Тёмные повелители Матрицы, но по крайней мере к нему стоило бы отнестись серьёзно.

Аналогично, если бы всё остальное, что говорили священники, оказывалось бы правдой, то мы серьёзнее отнеслись бы к утверждению, что веру вложил в нас Бог и она — систематически надёжный источник знания. Особенно, если бы люди были способны постичь сотый знак после запятой числа пи при помощи одной лишь веры.

Поэтому логический круг, содержащийся в утверждении «Я верю, что Библия слово Божие, потому что так написано в Библии», не так важен по сравнению с тем, что это утверждение призывает к отказу от познания собственного ума с помощью его же самого. Ведь с помощью такого познания вы поймёте, что всё, ставящее под сомнение достоверность Библии, также ставит под сомнение и её заверения в собственной достоверности.

Такое же рассуждение применимо и к рациональности. Если будущее перестанет быть похожим на прошлое –– даже на простейших и наиболее стабильных уровнях организации материи… впрочем, в таком случае, я, скорее всего, умру, так для функционирования моего мозга необходима упорядоченная вселенная, в которой по-прежнему работают законы химии. Но, если я почему-то выживу, то я должен буду поставить под сомнение принцип, согласно которому будущее должно напоминать прошлое.

Но раз пока этого не случилось, какова альтернатива утверждению: «Я полагаю, что будущее будет напоминать прошлое на наиболее стабильном уровне организации материи, какой только я смогу обнаружить, так как данное убеждение успешно оправдывалось в прошлом и давало лучшие результаты, чем любое другое»?

Подойдёт ли утверждение: «Вера в то, что будущее не будет напоминать прошлое, всегда меня подводила, и именно поэтому я и буду так считать»?

Помните, что быть рационалистом – это не значит выигрывать споры у идеальных философов абсолютной пустоты. Быть рационалистом – это просто выигрывать. И для этого мы хотим приблизиться настолько близко к истине насколько это возможно. И таким образом я принимаю следующий принцип: сомневаться в том, что утверждает мозг и что подсказывает интуиция, сомневаться в своих принципах рациональности, используя всю нынешнюю силу моего ума, и прикладывая все доступные усилия на каждом шагу.

И если один из ваших нынешних принципов окажется несовершенным –– согласно вашей же собственной проверке, ведь вы не можете выйти за рамки себя –– то измените его! А затем снова взгляните на себя и мир вокруг, используя ваши новые усовершенствованные принципы.

Смысл не в том, чтобы быть рефлексивно последовательным. Смысл в том, чтобы выигрывать. Однако если мы наблюдаем за собой и играем на победу, мы становимся более рефлексивно последовательными. Без этого не получится «играть, чтобы выигрывать» и одновременно «следить за собой».

Всё без исключения требует обоснования. Иногда — и неизбежно, насколько я могу судить — эти обоснования будут замыкаться в самосогласованную рефлексию. И я считаю, существуют признаки, позволяющие при помощи здравого смысла отличить её от порочного логического круга. Но всякий, кто всерьёз рассматривает порочные круги, наверняка весьма далёк от рациональности. И, конечно же, подобные люди будут настаивать, что их порочный круг — это «самосогласованная рефлексия», даже если она состоит всего лишь из единственного клочка бумаги с надписью «Верь мне». Что ж, не всегда возможно улучшить методы рационального мышления ещё и так, чтобы люди настолько одержимые саморазрушением не использовали их, чтобы раз за разом стрелять себе в ногу.

Никогда не сдерживайтесь, критикуя свои способы критики. И не считайте неизбежность циклических обоснований лицензией на иммунитет к критике.

Всегда боритесь в полную силу — не важно, приводит ли это к замкнутому циклу или нет. Делайте всё, что можете. И всегда играйте на победу.

Перевод: 
Горилла В Пиджаке, Alaric
Номер в книге "Рациональность: от ИИ до зомби": 
264
Оцените качество перевода: 
Средняя оценка: 4.7 (14 votes)

Раскладывание камней в правильные кучи

Элиезер Юдковский

Давным-давно жили странные существа (может быть они были биологическими, или может быть они были синтетическими, а может это был просто сон), и они увлекались укладыванием камней в правильные кучи.

Они не могли сказать, почему некоторые кучи правильны, а некоторые неправильны. Но все они соглашались, что наиболее важная вещь в мире — это создание правильных куч и раскидывание неправильных.

Причина, по которой этих Камнераскладывающих Людей так заботило раскладывание камней, была давно утеряна в истории — может быть фишеровское убегание, начавшееся миллион лет назад по какому-то совершенно случайному стечению обстоятельств? Или может быть это результат разумного творения, которое было заброшено?

Но, как бы там не было, раскладывание камней так много значило для них, что Камнераскладывающие философы в унисон говорили, что раскладывание камней по кучам было смыслом их жизней, что единственная оправданная причина кушать — это раскладывание камней; единственная причина размножаться — это раскладывание камней, единственная оправданная причина участвовать в экономической жизни их мира — это эффективное раскладывание камней.

Все Камнераскладывающие Люди соглашались с этим, но они не всегда соглашались с тем, какие кучи правильные, а какие нет.

На заре Камнераскладывающей цивилизации, кучи, создаваемые людьми, были по преимуществу маленькими, из 23 или 29 камней, и никто не знал, были бы более большие кучи правильными или нет. Три тысячелетия назад Великий Лидер Бико сделал кучу из 91 камня и объявил её правильной, и легионы его восторгающихся последователей создали множество других подобных куч. Но через несколько столетий, когда сила Биконианцев увяла, среди умнейших и наиболее просвещённых стало укрепляться чувство, что кучи из 91 камня неправильные. В конечном итоге, они пришли к пониманию того, что было сделано, и они раскидали все кучи из 91 камня. Не без некоторого сожаления, поскольку некоторые из этих куч были великими произведениями искусства, но неправильными. Они даже разбросали исходную кучу Бико, сделанную из 91 драгоценного камня, каждый своего типа и цвета.

И с тех пор ни одна цивилизация не сомневалась серьёзно в том, что куча из 91 камня неправильна.

Сегодня, в эти более умудрённые времена, размер куч, которые Камнераскладыватели осмеливаются создавать, вырос гораздо больше — и все согласны с тем, что это было бы великолепно и превосходно, если бы они могли убедиться в том, что кучи были действительно правильными. Иногда государства не соглашались о том, какие кучи правильные, и тогда случались войны: Камнераскладыватели никогда не забудут Великую Войну 1957 между И’ха-нтхей и И’не’ха-итлей из-за куч из 1957 камней. Та война, в которой впервые на Камнераслкдывающей планете было применено ядерное оружие, в конечном итоге закончилась, когда философ Эт’гра’лен’лей из И’не’ха-итлейев, расположил кучу из 103 камней рядом с кучей из 19 камней. Это аргумент оказался настолько убедительным, что даже И’не’ха-итлеи неохотно согласились, что лучше прекратить создавать кучи из 1957 камней, по-крайней мере в настоящее время.

После Великой Войны 1957 страны неохотно шли на открытое одобрение или осуждение куч большого размера, поскольку это легко могло привести к войне. В действительности некоторые Камнераскладыватели-философы — кто, видимо, получал удовольствие, шокируя других своим цинизмом — полностью отрицали существование какого-либо прогресса в раскладывании камней; они намекали, что мнения о камнях были просто случайным броуновским движением сквозь время, без какой-либо согласованности, иллюзия прогресса создавалась благодаря осуждению всех достижений прошлого, не похожих на сегодняшие, как неправильных. Философы указывали на несогласие о кучах большого размера, как на доказательство того, что нет ничего, что делало бы кучу размера 91 действительно неправильной — просто было модным создавать такие кучи в определённый период времени, а затем в другой период было модным разрушать их. Они отказывались принимать «Но…13!» как аргумент, заявляя что «13!» не убедительный аргумент, но лишь ещё одно соглашение. Кучевые Релятивисты утверждали, что их философия может помочь предотвратить будущие катастрофы типа Великой Войны 1957, но большинство рассматривало её как философию отчаяния.

В настоящее время вопрос, что делает кучу правильной или неправильной, стал важным по ещё одной причине: Камнераскладыватели в ближайшем будущем могли создать самосовершенствующийся ИИ. Кучевые Релятивисты выступили против проекта, они сказали, что ИИ, не принадлежа к виду Камнераскладыватель Разумный, могут создать свою собственную культуру, которая будет нести совершенно иные идеи о том, какие кучи правильные или неправильные. «Они могут решить, что кучи из 8 камней правильные», — сказали Кучевые Релятивисты, — «и поскольку они не будут ультимативно более или менее правыми, чем мы, всё же наша цивилизация говорит, что мы не должны создавать таких куч. Не в наших интересах создавать ИИ, если только мы не встроим бомбу в каждый компьютер, чтобы даже если ИИ подумает, что куча из 8 камней правильная, то мы могли бы заставить их строить кучи из 7 камней. Либо БАБАХ!»

Но для большинства Камнераскладывателей это было абсурдом. Определённо, любой достаточно мощный ИИ — особенно «суперинтеллект» о котором рассуждали некоторые транскамнераскладыватели — сможет увидеть в мгновение ока, какие кучи правильные, а какие нет! Мысль о том, что нечто с мозгом размером с планету, будет думать, что куча из 8 камней правильна — это просто слишком абсурдно, чтобы об этом даже разговаривать.

В действительности, совершенно бесполезно ограничивать суперинтеллект в том, какие кучи он будет строить. Предположим, что Великий Лидер Бико мог бы в его примитивный век построить самосовершенствующийся ИИ и встроил бы в него максимизатор ожидаемой полезности, чья функция полезности говорила бы ему создавать так много куч размера 91, сколько возможно. Несомненно, когда этот ИИ достаточно сильно бы себя улучшил и стал бы достаточно умным, то он бы увидел в мгновение ока, что его функция полезности была неправильной, и, имея возможность менять свой исходный код, он переписал бы свою функцию полезности, чтобы она ценила бы более осмысленные размеры куч, типа 101 или 103.

И конечно же не кучи размера 8. Это было бы просто глупо. Любой ум, который настолько глуп, слишком туп, чтобы быть угрозой.

Убеждённые таким здравым смыслом, Камнераскладыватели дали зелёный свет их проекту, по собиранию из множества разнообразных алгоритмов случайных программ, в надежде, что таким образом возникнет разум. Вся история цивилизации показывала, что более богатые, умные, более просвещённые цивилизации были склонны соглашаться о кучах, о которых спорили их предки. Конечно же, ещё оставались кучи бóльших размеров и они спорили о них, но по мере того как развивались технологии, цивилизации приходили к согласию о кучах большего размера и создавали их.

На самом деле, интеллект сам по себе всегда коррелировал с созданием правильных куч — ближайшие родственники по эволюции к Камнераскладывателям — Камнераспанзе — создавали кучи размером в 2 или 3 камня, и иногда глупые кучи, типа 9. А другие, ещё менее интеллектуальные животные, например, рыбы, вообще не делали куч.

Умнее мозги, следовательно, умнее кучи. С чего бы это вдруг эта закономерность перестанет работать?

Перевод: 
kuuff
Номер в книге "Рациональность: от ИИ до зомби": 
268
Оцените качество перевода: 
Средняя оценка: 5 (4 votes)

Настоящая дилемма заключенного

Элиезер Юдковский

Однажды я понял, что обычно дилемму заключенного представляют неправильно.

В основе дилеммы заключенного лежит вот такая симметричная платежная матрица:

1:С 1:П
2:С (3,3) (5,0)
2:П (0,5) (2,2)

Есть два игрока: Игрок 1 и Игрок 2. Каждый из них может выбрать С или П. Итоговый результат для Игрока 1 и Игрока 2 — соответственно, первое и второе число пары чисел в скобках. По причинам, которые станут понятны ниже, C означает «сотрудничать», П — «предать».

Заметим, что для участника этой игры (пусть он считает себя первым) предпочитаемые исходы выстраиваются в следующем порядке: (П, С) >> (C, С) >> (П, П) >> (С, П).

Видим, что П предпочтительнее, чем С: если второй игрок выбирает С, то первому выгоднее (П, С), чем (С, С). Если второй выбирает П, то первому выгоднее (П, П), чем (С, П). Таким образом, ты мудро выбираешь П, а так как платежная матрица симметрична, второй игрок аналогично выберет П.

Если бы вы оба были не так мудры! Каждому из вас выгоднее (С, С), чем (П, П). Поэтому вы оба предпочитаете обоюдное сотрудничество обоюдному предательству.

В теории принятия решений дилемма заключенного — одна из основ, и о ней написано огромное количество томов. Но я осмелюсь утверждать, что в традиционном представлении дилеммы заключенного есть серьезное упущение — по крайней мере, для людей.

Классическое представление дилеммы заключенного таково: ты преступник, пойманный властями вместе с сообщником. Независимо друг от друга, без возможности общаться между собой и без возможности изменить решение впоследствии, каждый из вас должен решить, давать показания против сообщника (П) или молчать (С).

В настоящий момент каждому из вас грозит год тюрьмы. Дача показаний против сообщника уменьшает твой срок на год и прибавляет другому два года.

В другом варианте, ты и незнакомец, не зная ничего друг о друге и не имея возможности узнать в будущем, единожды должны сыграть С или П, получив выигрыш в соответствии с приведенной выше платежной матрицей.

И, конечно, в классическом варианте предполагается, что ты полностью эгоистичен, т.е. не заботишься о сообщнике или об игроке в другой комнате.

И именно последнее условие, с моей точки зрения, приводит к неправильному восприятию дилеммы заключённого.

Невозможно устранить эффект знания задним числом, инструктируя присяжных вести себя так, будто они не знают, к чему привели рассматриваемые события. Аналогично, без больших усилий, подкрепленных соответствующими знаниями, психически здоровый человек не может притворяться по-настоящему эгоистичным.

У нас есть врожденные чувства честности, чести, сопереживания, симпатии и даже альтруизма. Это результат того, что наши предки длительное время приспосабливались к игре в повторяющуюся дилемму заключенного. Мы не можем полностью и честно предпочесть исход (П, С) исходу (С, С), хотя можем полностью предпочесть исход (С, С) исходу (П, П) и исход (П, П) исходу (С, П). Мысль о сообщнике, проводящем три года в тюрьме, не может совсем не трогать нас.

В закрытой комнате, где под наблюдением специалистов по экономической психологии мы играем в простую игру, мы не можем совсем не симпатизировать незнакомцу, который может сотрудничать. Мы не можем быть полностью счастливы при мысли о том, что незнакомец выбрал сотрудничать, а мы — предавать, и благодаря этому мы получим пять долларов, а он не получит ничего.

Мы инстинктивно держимся за исход (С, С) и ищем способы увериться, что этот выбор разделяет и вторая сторона. Наша невольная мысль — «как бы убедиться, что сотрудничество взаимно», а не «как бы обмануть второго, чтобы он сыграл С, в то время как я сыграю П и получу максимальный выигрыш».

Для тех, кому важны альтруизм, честь и справедливость, дилемма заключенного не содержит по-настоящему критической платежной матрицы, безотносительно финансовых исходов для игроков. (С, С) предпочтительнее, чем (П, С), и ключевой вопрос — думает ли второй игрок так же.

И людям, которые только что познакомились с теорией игр, нельзя объяснить, что они должны притворяться полностью эгоистичными. Это ничуть не легче, чем объяснить людям, познакомившимся с идеей антропоморфизма, что они должны притворяться максимизаторами скрепок.

Для настоящей дилеммы заключённого ситуация должна быть примерно такой:

Игрок 1: Человек, дружественный искусственный интеллект или другой человекоподобный разум.
Игрок 2: Недружественнный искусственный интеллект, либо инопланетянин, который озабочен лишь раскладыванием камней в правильные кучи.

Представим, что четыре миллиарда людей — не всё человечество, но значительная его часть — страдает прогрессирующим смертельным заболеванием, которое может вылечить только Вещество.

Однако Вещество возможно производить, только взаимодействуя с максимизатором скрепок из параллельного мира — с помощью Вещества еще можно делать скрепки. Максимизатора скрепок волнует количество скрепок только в его мире, а не в нашем, так что мы не можем влиять на него, предлагая изготавливать или уничтожать скрепки здесь. Мы никогда раньше не имели дело с максимизатором скрепок и никогда больше не встретим его впредь.

У человечества и максимизатора скрепок есть только один шанс добыть себе немного Вещества, потому что щель между мирами скоро захлопнется. Однако, процесс добычи вещества приводит к потере его части.

Платежная матрица выглядит так:

1:С 1:П
2:С (спасти 2 миллиарда человеческих жизней, сделать 2 скрепки) (3 миллиарда жизней, 0 скрепок)
2:П (0 жизней, 3 скрепки) (1 миллиард жизней, 1 скрепка)

Я составил матрицу так, чтобы вызвать чувство негодования при мысли о том, что максимизатор скрепок хочет обменять миллиарды человеческих жизней на пару скрепок. Очевидно же, что максимизатор скрепок обязан отдать все Вещество нам. Но он делает не то, что обязан, а просто максимизирует количество своих скрепок.

В этом случае мы на самом деле предпочитаем исход (П, С) исходу (С, С), оставляя за скобками средства, которыми достигается цель. Мы намного охотнее предпочтем жить во вселенной, где три миллиарда людей спаслись и не было произведено ни одной скрепки, чем пожертвуем миллиардом жизней в обмен на изготовление двух скрепок. Кажется, что в этом случае сотрудничать просто неправильно. Предавать даже не кажется нечестным – ведь так велика жертва для нас и так мал выигрыш максимизатора скрепок! Уточним особо, что максимизатор скрепок не чувствует боль или удовольствие — он просто действует так, чтобы в его мире стало больше скрепок. Он не испытает радость, приобретя скрепки, не испытает боль, потеряв скрепки, и не оскорбится, если мы предадим его.

Что же ты сделаешь? Будешь ли сотрудничать, если искренне, целиком и полностью желаешь того огромного выигрыша, который можешь получить, и нисколько не озабочен ничтожной в сравнении с этим потерей второго игрока? Если предать кажется правильным, даже если второй игрок сотрудничает?

Именно так выглядит платёжная матрица для настоящей дилеммы заключённого. Настоящая дилемма заключённого — это ситуация, когда исход (П, С) кажется правильнее, чем (С, С).

Но вся остальная логика — что будет, если оба игрока так думают, и поэтому оба предадут — ничуть не меняется. Ведь максимизатор скрепок настолько же мало обеспокоен людскими смертями, болью или нашим ощущением предательства, как нас мало волнуют скрепки. Но обоим нам выгоднее (С, С), чем (П, П).

Если ты когда-нибудь гордился тем, что в дилемме заключенного выбрал сотрудничать, или однажды оспаривал вывод классической теории игр о том, что «рациональнее» предать — что ты скажешь об этой настоящей дилемме заключенного?

PS На самом деле, я не считаю, что рациональные агенты всегда должны предавать в однократной дилемме заключённого, в которой другой игрок выберет сотрудничать, если ожидает того же от вас. Я думаю, что есть ситуации, где два агента могут рационально прийти к (С, С), а не к (П, П) и получить соответствующую выгоду.

Часть своих доводов я изложил при обсуждении задачи Ньюкома. Однако, мы не можем рассуждать о том, возможно ли в этой дилемме рациональное сотрудничество, пока не избавимся от интуитивного ощущения, что исход (С,С) хорош сам по себе. Если мы хотим понять математику, мы должны научиться видеть сквозь социальный ярлык «взаимного сотрудничества». Если вы чувствуете, что с точки зрения Игрока 1 (С,С) гораздо лучше, чем (П,П), но не чувствуете, что при этом (П,С) гораздо лучше, чем (С,С), то вы пока не понимаете всю сложность этой задачи.

Перевод: 
Фёдор Ефремов, Alaric
Номер в книге "Рациональность: от ИИ до зомби": 
275
Оцените качество перевода: 
Средняя оценка: 4.5 (6 votes)