Вы здесь

Парадокс Ньюкома: сожалея о своей рациональности

Элиезер Юдковский

Ниже пойдет речь о, возможно, самой дискуссионной проблеме в истории теории принятия решений — парадоксе Ньюкома:

Сверхразумное существо с другой галактики (будем называть его Омега) прилетает на Землю и приступает к маленькой необычной игре. Омега выбирает человека, ставит перед ним два ящика и скрывается из виду.

Ящик А прозрачен, в нём лежит тысяча долларов.

Ящик Б закрыт и содержит либо миллион долларов, либо ничего.

Вы можете выбрать либо оба ящика, либо только второй.

Интрига же в том, что Омега положил миллион долларов в ящик Б тогда и только тогда, когда он предсказал, что вы возьмете только этот ящик.

До сих пор (на каждом из ста случаев, которые вы смогли пронаблюдать) Омега оказывался прав: каждый, кто брал оба ящика, находил ящик Б пустым и получал только тысячу долларов; каждый, кто брал только ящик Б, обнаруживал в нём миллион. (Будем полагать, что ящик А исчезает в облаке дыма, если вы берете только ящик Б; нельзя взять ящик А уже потом.)

До того, как вы сделаете выбор, Омега уже улетел, чтобы приступить к следующей игре. Ящик Б либо уже пуст, либо уже содержит деньги.

Омега бросает два ящика прямо перед вами и исчезает.

Вы возьмете оба или только ящик Б?

Типичная дискуссия об этой задаче протекает примерно так:

Вася: «Конечно же, я возьму только ящик Б. Лучше выиграть миллион, чем тысячу».

Петя: «Омега уже скрылся. Ящик Б либо уже полон, либо уже пуст. Если он уже пуст, то я получу 1000 долларов, взяв оба ящика, и ничего, если возьму только один. Если ящик Б уже полон, то, если я возьму оба, мне достанется 1 001 000 долларов, а если возьму только Б, то 1 000 000 долларов. В любом случае взять оба ящика лучше, а оставить тысячу долларов хуже, так что я буду действовать рационально и возьму оба ящика».

Вася: «Если ты такой умный, то почему ты такой бедный?»

Петя: «Не моя вина, что Омега решил награждать только иррационально настроенных людей, но мой ход в этой игре уже ничего не изменит».

О парадоксе Ньюкома написаны горы литературы, особенно если считать дилемму заключенного ее частным случаем, каковым она, как правило, является. Например, «Парадоксы рациональности и кооперации» («Paradoxes of Rationality and Cooperation») — издание, в которое входит оригинальная статья Ньюкома.

Я сейчас не буду глубоко погружаться в литературу, но замечу, что преобладающее мнение в современной теории принятия решений гласит, что следует выбрать оба ящика, а Омега просто вознаграждает агентов с нерациональными установками. Эта доминирующая точка зрения берет свое начало из причинной теории принятия решений (в русскоязычных текстах также иногда встречается наименование «каузальная теория принятия решений» — прим. перев.)

Как вам известно, основная причина того, что я пишу в блог, — моя невероятно низкая скорость, если я пытаюсь писать в каком-либо другом формате. Так что я не собираюсь выкладывать здесь мой собственный разбор проблемы Ньюкома. Это была бы слишком долгая история, даже по моим стандартам.

Но даже адепты причинной теории согласны, что если у вас есть силы заранее настроить себя на то, чтобы взять один ящик, то нужно сделать это. Если вы можете «настроиться» до того, как Омега проверит вас, то этим самым вы непосредственно обусловливаете то, что ящик Б не будет пустым.

В моей области деятельности (в построении самоулучшающегося искусственного интеллекта, если кто забыл) это выражается так: если вы построите ИИ, берущий оба ящика в проблеме Ньюкома, то он изменит себя так, чтобы брать один ящик, если сможет заранее предположить, что может столкнуться с такой ситуацией. Агенты, имеющие свободный доступ к своему исходному коду, способны легко настраивать себя заранее.

Что, если вы ожидаете, что можете встретиться с этой задачей, но не знаете точную формулировку? Тогда вам необходимо изменить себя, сделав свои установки такими, какие в общем случае обеспечивают высокий выигрыш в подобных задачах.

Но в чем же заключаются установки, нацеленные на хорошее решение задач вроде этой? Можно ли описать их формально?

Да, но, пытаясь сделать это, я осознаю, что начинаю писать небольшую книгу. (И не самую важную книгу, которую пишу, так что я откладываю это. Моя низкая скорость письма — настоящая отрава моего существования.) В теории, над которой я работаю, больше, как мне кажется, положительных моментов, не считая даже того, что она лучше решает задачи вроде проблемы Ньюкома. Работа могла бы стать неплохой диссертацией, если бы я нашел кого-нибудь, кто принял бы у меня ее в таком качестве. Но стряхнуть пыль с этого проекта и снова взяться за него заняло бы слишком много времени и сил; я бы не смог оправдать такой расход времени, учитывая скорость, с которой я сейчас пишу книги.

Я говорю это потому, что общепринятая позиция гласит: «Словесные аргументы в пользу того, чтобы брать один ящик, отыскать легко, но трудно разработать хорошую теорию, которая этого требует». Нужна последовательная математическая теория принятия решений, указывающая на необходимость брать только один ящик и не порождающая парадоксов в других задачах. Я понимаю, как можно это сделать, и взялся за разработку таковой, но скорость, с которой я пишу крупные работы, так низка, что я не могу ее опубликовать. Верите ли вы или нет, но это так.

Несмотря на всё это, я бы хотел изложить некоторые собственные мотивы к решению этой проблемы, причины, побудившие меня отыскивать новую теорию, — потому что они разъясняют мое базовое отношение к вопросу рациональности (даже если я не смогу рассказать саму теорию, к созданию которой эти мотивы побуждают).

Во-первых, в основном, по существу и прежде всего:

Рациональные агенты должны ВЫИГРЫВАТЬ.

Не поймите меня превратно, подумав, что я говорю о штампе «голливудской рациональности», который утверждает, что рационалисты должны быть эгоистичными или недальновидными. Если ваша функция полезности включает в себя благо других, то их счастье — ваш выигрыш. Если она подразумевает сроки в миллионы лет, то выигрывать следует на протяжении геологических эр.

Но, так или иначе, речь о том, чтобы ВЫИГРЫВАТЬ. Не упустите мысли: ВЫИГРЫВАТЬ.

Сейчас некоторые сторонники причинной теории принятия решений заявляют, что брать оба ящика — значит, делать всё возможное, чтобы выиграть, и нельзя ничем им помочь, если их наказывает Предсказатель, благоволя же иррационалам. Скоро я скажу, что думаю об этой точке зрения, но для начала я хочу провести черту между теоретиками причинного принятия решений, которые убеждены, что брать оба ящика — по-настоящему делать все возможное для выигрыша, и теми, кто считает, что брать два ящика осмысленно или рационально, но этот разумный выбор приводит в случае этой игры к предсказуемому проигрышу. Вокруг нас чертова прорва народу думает, что рациональность ожидаемо проигрывает при решении разнообразных задач; это, к тому же, часть штампа «голливудской рациональности», в котором Кирк предсказуемо превосходит Спока.

Теперь давайте вернемся к призу, которым Омега награждает иррационалов. Я в состоянии вообразить сверхсущество, которое платит только людям, рожденным с определенным геном, не обращая внимания на их выбор. Я могу представить инопланетянина, награждающего игроков, в чьи мозги врезан конкретный алгоритм «Опишите по-английски возможные варианты и выберите последний в алфавитном порядке», но не отдающего приза тем, кто выбирает тот же вариант, но по другой причине. Однако Омега награждает тех, кто выбрал только ящик Б, вне зависимости от того, каким именно способом они пришли к этому решению, и именно поэтому я не куплюсь на то, что Омега благоволит иррационалам. Его не заботит, следуете ли вы или нет определенному образцу мышления; всё, что его интересует, — ваше предсказанное решение.

Можно выбрать любой алгоритм обоснования, какой нам нравится, и мы будем награждены или наказаны только в зависимости от выбора, произведенного алгоритмом, независимо от всего прочего: Омегу интересует только то, куда мы приходим, а не как попадаем туда.

Я говорю именно с той точки зрения, которая гласит, что Природа не заботится о нашем алгоритме. Это открывает возможность следовать Пути выигрывания и освобождает нас от какого-либо отдельного ритуала мышления (кроме наших убеждений, что это работает). На каждое хитрое правило найдется свой контрпример, кроме правила выигрывания.

Как сказал Миямото Мусаси (это стоит повторить)1:

Согласно воззрениям школы Ити, ты можешь победить с длинным клинком, но можешь выиграть бой и с коротким. Иначе говоря, дух школы Ити — дух победы, вне зависимости от вида
оружия и его длины.

(Другой пример: Мак-Ги утверждал, что мы обязаны ограничивать применение функций полезности, или же мы бесчисленное количество раз будем оказываться жертвой собственной непоследовательности. Но у функции полезности нет исключений. Я люблю жизнь без ограничений, без верхней границы: нет такого конечного значения N, что я предпочту шанс в 80,0001 % прожить N лет по сравнению с вероятностью в 0,0001 % прожить гуголплекс лет и восьмидесяти процентной вероятностью жить вечно. Это достаточное условие, чтобы можно было сказать, что моя функция полезности неограниченна. Так что мне просто надо сформулировать, как оптимизировать её для данных норм поведения. Вы не можете сказать мне «Для начала ты, прежде всего, должен приспособиться к определённому ритуалу мышления, а затем, если приспособишься, тебе нужно изменить свои нормы поведения, чтобы избежать непоследовательности». Откажитесь от схемы, ведущей к поражению; не меняйте определение выигрыша. Иное значило бы, что вы предпочитаете тысячу долларов миллиону, так что в свете проблемы Ньюкома ваша новая схема мышления не будет выглядеть плохо.)

«Но», — скажет сторонник причинной теории принятия решений, — «чтобы взять только один ящик, вам нужно сначала как-то поверить, что ваш выбор способен повлиять на то, пуст ящик Б или полон; это неразумно! Омега уже улетел! Это физически невозможно!»

Неразумно? Я рационалист; какое мне дело до того, быть ли неразумным? Я не собираюсь подчиняться определенной схеме мышления. Я буду брать только ящик Б не потому, что убежден, что мой выбор влияет на содержимое ящика, хотя даже Омега улетел. Я могу просто… взять только ящик Б.

Я собираюсь предложить альтернативный способ мышления, который рассчитает необходимость этого решения, но поля слишком узки для него; однако мне нет нужды предъявлять его вам. Дело не в том, чтобы обладать изящной теорией выигрывания, — дело в том, чтобы выигрывать; красота формулировок — побочный эффект.

Или посмотрим на это с другой стороны: вместо того, чтобы начинать с определения разумного решения, а затем задаваться вопросом, получит ли этот «разумный» агент много денег, взгляните лучше на агента, который получил много денег, затем разработайте теорию, в соответствии с которой агент будет оставаться с наибольшим количеством денег, и, уже отталкиваясь от этой теории, попробуйте вывести определение «разумности». «Разумность» может быть лишь ярлыком тех решений, которые соответствуют нашему текущему ритуалу мышления, — как ещё можно определить, является ли что-либо «разумным» или нет?

Джеймс Джойс, «Основы причинной теории решений»:

У Рэйчел был потрясающий ответ на вопрос, почему она не обогатилась (в этой игре — прим. перев.) «Я не выиграла много денег потому», — говорила она, — «что я не такой неудачник, который, как думают психологи, откажется от денег. Я просто не такая как ты, Ирен. Учитывая то, что я знаю, что не обладаю характером неудачника, и то, что психологи знают, что я такова, было бы разумным думать, что миллион не достанется мне. Тысяча долларов была наибольшей суммой, что я собиралась получить вне зависимости от того, что предприму. Поэтому единственная разумная вещь — взять их».

Ирен, возможно, захочет настоять на своем, спросив: «Но ведь ты не хочешь быть такой как я, Рэйчел? Ты не хочешь быть тем, кто проигрывает?» Существует некая склонность к тому, чтобы думать, что Рэйчел, преданная причинной теории принятия решений, должна ответить на этот вопрос отрицательно, и это кажется очевидно ошибочным (учитывая, что, будь она «неудачницей», как Ирен, она бы смогла получить больший приз). Это не тот случай. Рэйчел может и должна признать, что она хочет быть более похожей на Ирен. «Сейчас это было бы для меня лучше», — может допустить она, — «будь я неудачницей». И здесь Ирен восклицает: «Ага, ты признаешь это! В конце концов, не так уж умно было попытаться взять все деньги». К несчастью для Ирен, ее заключение вовсе не следует из того, что сказала Рэйчел. Та терпеливо разъяснит, что желать быть «неудачником» в задаче Ньюкома не противоречит тому, что необходимо брать тысячу долларов независимо от своего характера. Когда Рэйчел хочет быть такой же «неудачницей», как Ирен, она желает получить такие же возможности, а не одобрить ее выбор.

И я должен сказать, что это всеобщий принцип рациональности (конечно, в том смысле, как я определяю это понятие) — то, что вы никогда в конце концов не обнаружите себя завидующим чужому выбору самому по себе. Вы можете позавидовать чьим-нибудь генам, если бы Омега награждал за гены или именно они создавали бы установки, благополучные для выигрыша. Однако Рэйчел в вышеприведенной цитате завидует выбору Ирен и только выбору безотносительно от того, какой алгоритм та использовала, чтобы сделать его. Рэйчел стремится лишь к тому, чтобы настроить себя для принятия другого решения.

Невозможно заявлять, что вы более рациональны, чем кто-то другой, и в то же время завидовать тому, какой выбор сделал этот другой, если речь только о выборе. Просто сделайте то, чему завидуете.

Я всё пытаюсь сказать, что рациональность — это Путь выигрывания, но апологеты причинной теории принятия решений настаивают, что брать оба ящика и значит на самом деле выиграть, потому что невозможно поступить лучшим образом, оставив тысячу долларов… даже если те, кто берет один ящик, уходят с эксперимента с большей суммой. Остерегайтесь доводов такого рода каждый раз, когда вы замечаете за собой то, что определяете как «победителя» кого-то отличного от агента, с улыбкой взирающего с вершины гигантской пирамиды полезности.

Да, во многих мысленных экспериментах агенты имеют фору с самого начала, но если, скажем, нужно решить, прыгать ли со скалы, то нужно остерегаться того, чтобы определить агентов, воздерживающихся от прыжка, как заранее обладающих несправедливым преимуществом, — что, якобы, они подло отказались прыгать. В этом месте вы незаметно переопределяете понятие «выигрывать», называя им следование определенному ритуалу мышления. Следите за деньгами!

Другой способ взглянуть на проблему: столкнувшись с задачей Ньюкома, вы бы захотели приложить заметные усилия, чтобы понять разумное обоснование того, что брать только ящик Б рационально и осмысленно (ведь если аргумент такого рода существует, вам следует взять только ящик Б, и вы найдете его полным денег)? Потратите ли вы несколько дополнительных часов, обдумывая эту проблему, если уверены, что в конце концов убедите себя, что брать только ящик Б — рациональный выбор? В этом положении достаточно странно находиться. Обычно работа рациональности заключается в том, чтобы разъяснить, какой выбор является наилучшим, а не отыскать обоснование к убеждению, что какое-либо конкретное решение оптимально.

Возможно, слишком легко говорить, что вы «следуете» стратегии «брать оба ящика» в проблеме Ньюкома и что это «разумный» выбор, пока деньги не будут действительно перед вами. Возможно, вы просто нечувствительны к абстрактным проблемам такого рода. А что, если у вашей дочери заболевание, смертельное в 90% случаев, и в ящике А сыворотка, которая вылечит ее с вероятностью в 20%, а ящик Б может содержать лекарство, успешно действующее с шансами в 95%? Что, если к Земле мчится астероид, и ящик А содержит систему защиты, действующую 10% времени, а в ящике Б может быть орудие, которое защищало бы Землю постоянно?

Будь это так, вы бы заметили, что вас просто соблазняет сделать необоснованный выбор?

Что, если ставка, которую может принести ящик Б, — это что-то такое, что вы не можете оставить? Что-то безгранично более важное для вас, нежели следовать тому, что выглядит разумным? Если вам совершенно нужно выиграть — действительно выиграть, а не просто определить себя как победителя?

Захотели бы вы всем своим нутром, чтобы «разумным» решением оказалось взять только ящик Б?

Если да, то, возможно, сейчас настало время обновить ваше определение разумности.

Предполагая себя рационалистом, вы не должны обнаруживать, что завидуете решениям-самим-по-себе, принятым предполагаемыми не-рационалистами: ваше решение может быть любым. Когда вы обнаружите себя в подобном положении, вам не следует упрекать другого в том, что он не смог подстроиться к вашему пониманию разумности. Вам нужно осознать, что вы шли по ложному пути.

То же самое верно, и если вы заметите, что продолжаете хранить веру в отдельный след «обоснованного» убеждения в противовес убеждению, которые выглядит по-настоящему истинным: либо вы недопонимаете «обоснованность», либо ваше представление об истинности второго убеждения ошибочно.

Невозможно одновременно определить «рациональность» и как Путь выигрывания, и как некую конкретную систему в рамках байесовской теории вероятностей и теории принятия решений. Но это тот самый аргумент, который я привожу в первую очередь, и мораль моего совета — верить в байесианство, в то, что законы, ведущие к выигрышу, имеют достаточный доказательный аппарат, чтобы быть точной наукой. Если же когда-нибудь окажется, что байесовские принципы терпят неудачу, систематически решая некую задачу плохо (по сравнению с решениями других теорий), то байесианство придётся оставить на свалке истории. «Рациональность» — просто ярлык, который я использую для своих представлений о Пути выигрывания — пути агента, улыбающегося с вершины гигантской пирамиды полезности. Сейчас этим ярлыком помечено байесовское искусство.

Я понимаю, что эта статья — еще не окончательный нокаут для причинной теории принятия решений (для этого нужна была бы целая книга или диссертация), но я надеюсь, что смог частично проиллюстрировать свое подсознательное отношение к понятию «рациональность».

Вы не должны обнаруживать себя отделяющим «выгрышный» выбор от «разумного» или «обоснованное» убеждение от «наиболее правдоподобного».

Я рассказал, почему я называю «рациональными» свои убеждения в зависимости от их точности и выигрышности, но не для того, чтобы указать на словесное обоснование или на конкретные стратегии, приводящие к определенному успеху; не для того, чтобы назвать этим словом то, что доказуемо логически, наглядно для других или выглядит «обоснованным».

Как сказал Миямото Мусаси2:

«Помни, когда в твоих руках меч — ты должен поразить противника, чего бы тебе это ни стоило. Когда ты парируешь удар, наносишь его, делаешь выпад, отбиваешь клинок или касаешься атакующего меча противника, ты должен сразить противника тем же движением. Достигай цели. Если ты будешь думать только о блокировании ударов, выпадах и касаниях, ты не сможешь действительно достать врага».

  • 1. Перевод взят с сайта lib.ru, к сожалению, переводчик там не указан. — Прим.редактора.
  • 2. Перевод также взят с сайта lib.ru. — Прим.редактора.

Перевод: 
Quilfe, alekseykarnachev, ogmennesket
Номер в книге "Рациональность: от ИИ до зомби": 
291
Оцените качество перевода: 
Средняя оценка: 4.9 (11 votes)
  • Короткая ссылка сюда: lesswrong.ru/151