Парадокс Аллэ

Элиезер Юдковский

Выберите между двумя следующими возможностями:

1А. 24 000 долларов, точно.

1Б. Шанс в 33/34 выиграть 27000 долларов и в 1/34 — не получить ничего.

Что интуитивно кажется лучшим выбором? И что вы выберете в реальной жизни?

А какой из двух выборов вы предпочтете теперь и какой выберете в реальной жизни?

2А. 34-процентный шанс выиграть 24 000 долларов и 66-процентный шанс не получить ничего.

2Б. 33-процентный шанс выиграть 27 000 долларов и 67-процентный шанс не получить ничего.

Парадокс Аллэ, названный по имени исследователя, на самом деле не является парадоксом — он был одним из первых конфликтов между теорией принятия решений и человеческим мышлением; он был показан экспериментально в 1953 году. Я слегка модифицировал его, чтобы его легче было понять математически, однако в сущности проблема осталась той же: большинство людей предпочтут вариант 1А, и большинство людей предпочтут вариант 2Б. На самом деле, в пределах задачи, большинство испытуемых выражают оба предпочтения одновременно.

Это проблема, поскольку второй вариант задачи эквивалентен одной трети шанса от первого. То есть, 2А это все равно что получить 1А с вероятностью в 34%, и 2Б эквивалентно 1Б с вероятностью 34%.

Среди аксиом, используемых для доказательства, что последовательный сторонник теории принятия решений может рассматриваться как тот, кто максимизирует ожидаемую полезность, есть аксиома независимости: если Х строго предпочитается Y, тогда вероятность Р от Х и (1 – Р) от Z должны строго предпочитаться вероятности P от Y и (1 - Р) от Z.

Все аксиомы являются следствием и основанием последовательной функции полезности. Так что должно быть возможно доказать, что экспериментальные испытуемые выше не имели последовательной функции полезности для своих выборов. И в самом деле, вы не можете одновременно выбирать:

U(24 000 $) ≻ 33/34 U(27 000 $) + 1/34 U(0 $)

0,34 U(24 000$) + 0,66 U(0 $) ≺ 0,33 U(27 000$) + 0,67 U(0 $)

Эти два уравнения алгербаически непоследовательны независимо от U, и поэтому парадокс Аллэ не имеет ничего общего с убывающей предельной полезностью денег.

Морис Аллэ первоначально защищал выявленные предпочтения испытуемых: он рассматривал эксперимент как разоблачение недостатка в обычной идее полезности, а не подвергал критике изъян в человеческой психологии. В конце концов, это был 1953 год, и до начала движения эвристики и искажений было еще два десятилетия. Аллэ думал, что эксперимент просто показывает, что аксиома независимости не может быть применена в чистом виде в реальной жизни.

(Как наивно, как глупо, как упрощённо в Байесовской теории принятия решений…)

Конечно, определенность в обладании 24 000 долларов должна что-то значить. Вы ощущаете разницу, верно? Твердую уверенность?

(Я начинаю думать об этом как о «наивном философском реализме» — предположении, что наши интуитивные ожидания прямо отражают истины о том, какие стратегии мудрее, как о непосредственно осознаваемом факте, что «1А превосходит 1Б». Интуитивные ожидания прямо отражают истины о человеческих когнитивных функциях и только косвенно отражают (после того как мы отразим когнитивные функции сами по себе) истины о рациональности.)

«То есть», — скажете вы, — «это настолько ужасно, что следует отказаться от изящества байесианства?» Хорошо, поскольку испытуемые не следовали чистой малой аксиоме независимости, представленной фон Нейманом и Моргенштерном. Но кто вообще сказал, что вещи должны быть ясными и чистыми?

Зачем беспокоится о изяществе, если оно заставляет нас брать риски, которых мы не хотим? Ожидаемая полезность говорит нам количественно оценить результат, умножить на его вероятность, сложить и т. д. Хорошо, но почему мы должны это делать? Почему бы не использовать более подходящие правила?

Всегда есть цена за уход с байесовского пути. Это то, о чем говорят теоремы согласованности и уникальности.

В данном случае, если агент предпочитает 1A > 1Б, и 2Б > 2A, он вводит противоречивую систему предпочтений — динамическую неслогласованность в системе планирования агента. Вы начинаете терять деньги.

Предположим, что в 12:00 я брошу кость со 100 гранями. Если кость покажет число больше, чем 34, то игра заканчивается. В любом другом случае в 12:05 я спрошу совета по выбору между двумя положениями, А и Б. Если положение А, то я заплачу вам 24 000 долларов. Если положение Б, то я бросаю кость с 34 гранями и плачу вам 27 000 долларов, но только если кость не показывает «34»: в этом случае я не плачу вам ничего.

Предположим, что вы выбрали 1А, а не 1Б, и 2Б, а не 2А, и вы должны заплатить один пенни за каждый выбор. Выбор начинается с состояния А. До 12:00 вы платите мне пенни, чтобы перейти в состояние Б. Кость показывает 12. После 12:00 и до 12:05 вы платите мне пенни за переход в состояние А.

Я принимаю ваши два цента с субъекта.

Если вы действуете в угоду своим интуитивным ожиданиям и отказываетесь от изящества как от бессмысленной одержимости, не удивляйтесь, когда ваши деньги уходят от вас…

(Я думаю, та же неспособность пропорционально девальвировать эмоциональное воздействие малых вероятностей несет ответственность за лотерею.)

Allais, M. (1953). Le comportement de l’homme rationnel devant le risque: Critique des postulats et axiomes de l’école Américaine. Econometrica, 21, 503-46.

Kahneman, D. and Tversky, A. (1979.) Prospect Theory: An Analysis of Decision Under Risk. Econometrica, 47, 263-92.

Перевод: 

Remlin
  • Короткая ссылка сюда: lesswrong.ru/133