Вы здесь

Сообщай отношения правдоподобия

Анна Саламон, Стив Рэйхок

Когда я вспоминаю о теореме Ауманна о согласии, у меня возникает рефлекторное желание найти среднее значение. Ты считаешь, что вероятность события X — 80 %, а я приписываю ему вероятность в 60 %. После обмена мнениями мы оба, наверное, должны сойтись на 70 %. «Возьми среднее арифметическое от начальных убеждений», или даже «посчитай взвешенное среднее, зависящее от авторитета» — частые эвристики.

Эта стратегия работает не всегда. Иногда лучшая комбинация не просто не похожа на среднее значение, но даже выходит за пределы отрезка [наименьшая оценка, наибольшая оценка].

Скажем, Джейн и Джеймс хотят определить, симметрична ли монета. Они оба считают, что она симметрична с вероятностью 80 %. Также им известно, что если монета несимметрична, то она наверняка из числа тех, что выпадают орлом в 75 % случаях.

Джейн пятикратно подбрасывает монету, совершает идеальное байесианское обновление убеждений и делает вывод, что монета несимметрична с вероятностью 65 %. Джеймс пятикратно подбрасывает монету, совершает идеальное байесианское обновление убеждений и делает вывод, что монета несимметрична с вероятностью 39 %. Эвристика усреднения предполагает, что правильный ответ находится где-то между 65 % и 39 %. Однако идеальный байесианец, услышавший оценки Джейн и Джеймса, знающий их априорные вероятности, и установивший, какие свидетельства они наблюдали, сделает вывод о 83 % вероятности несимметричности монеты.

(Математические выкладки перенесены в конец статьи)

Возможно, Джейн и Джеймс объединяют свою информацию в центре многолюдной таверны, и поблизости нет ни ручки, ни бумаги. Может быть, у них не хватает времени или памяти для того, чтобы рассказать друг другу о всех результатах бросков. Поэтому они просто сообщают друг другу апостериорные вероятности — хорошее, короткое резюме, самое то для пары спешащих рационалистов. Возможно, именно в этой лаконичности таится причина желания усреднять апостериорные убеждения.

И всё-таки, существует альтернатива. Джейн и Джеймс могут обменяться отношениями правдоподобия. Также, как и апостериорные вероятности, отношения правдоподобия суть сжатый конспект; и, в отличии от апостериорных вероятностей, обмен отношениями правдоподобия действительно работает.

Давайте послушаем беседу, в которой Джейн и Джеймс обмениваются отношениями правдоподобия:

ДЖЕЙН: Вероятность моих наблюдений при условии несимметричности монеты в семь с половиной раз выше, чем вероятность моих наблюдений при условии симметричности монеты.

ДЖЕЙМС: Мои наблюдения при условии несимметричности монеты в два с половиной раза вероятнее, чем при условии симметричности монеты.

ВДВОЁМ, в унисон: Значит, вероятность совокупности наших наблюдений при условии несимметричности монеты примерно в 19 раз выше, чем при условии её симметричности. Но наша априорная вероятность того, что монета несимметрична равна 20 %, что означает отношение априорных шансов 1:4. Применив теорему Байеса, получаем (1:4)*(19:1), что примерно равно 5:1 в пользу несимметричной монеты.

[ЗАВСЕГДАТАИ БАРА осторожно выскальзывают из помещения, пугливо оглядываясь]

И сейчас, увидев, как именно работает обмен отношениями правдоподобия, ты наверняка страстно хочешь воспользоваться этим приёмом из арсенала рационалистов в повседневной жизни.

Поэтому, как и в других подобных случаях, имеет смысл привести несколько примеров их применения.

1) Отделяй свидетельства от априорных вероятностей. Пару раз я наблюдал беседы примерно следующего вида:

Алиса: Что ты думаешь о Джеке?

Боб: По-моему, человек как человек, довольно средний в плане (ума\надёжности\чего-то там). Не думаю, что он ниже среднего, но и выдающимся я бы его не назвал.

Алиса: По какой именно причине ты не считаешь его выдающимся? Ты наблюдал что-то, говорящее о том, что он не выдающийся? Или просто большинство людей — середняки, и ты не видел ничего, что позволило бы считать Джека особенным? Где именно расположен пик твоей функции правдоподобия?

Такой стиль ведения диалога очень полезен. Пусть, например, первоначальное впечатление Алисы о Джеке крайне положительно, а мнение Боба не так положительно. Если Боб хорошо знает Джека, то Алисе придётся понизить своё мнение о Джеке. Однако если мнение Боба — следствие слишком малого количества положительных данных о Джеке, недостаточного для того, чтобы переместить Джека из категории «скорее всего, обычные люди» в категорию «скорее всего, выдающиеся люди», то Алисе нужно повысить свою оценку способностей Джека. В обоих этих случаях апостериорные убеждения Боба одинаковы, хотя его наблюдения несут в себе разительно отличающиеся следствия для Алисы. Эта разница теряется при обмене апостериорных убеждений, но учитывается при обмене отношениями правдоподобия.

2) Не считай априорные вероятности дважды. Робин Хансон предложил корректировать баллы, набранные женщинами в SAT по математике в сторону среднего значения (уменьшать высокие значения и увеличивать низкие), если математические навыки женщин характеризуются меньшим среднеквадратичным отклонением, чем математические навыки мужчин. Забудем о моральной стороне этого вопроса; такая корректировка действительно улучшит применимость результатов для оценки математических способностей людей, о которых неизвестно ничего, кроме результата их SAT. Вполне возможно, что женщина, набравшая 800 баллов, набрала их благодаря какой-нибудь случайности, однократному везению; если провести несколько последующих тестирований, то их результаты будут лежать в окрестности того же значения, что и результаты повторного тестирования мужчины, изначально набравшего, скажем, 770 баллов.

Можно сказать, что, возможно, математическое ожидание результатов (так сказать, «истинная степень способностей к математике») женщины, набравшей 800 баллов, ничем не отличается от математического ожидания результатов мужчины, набравшего 770 баллов.

Однако, такая корректировка результатов перемешивает априорные вероятности и отношения правдоподобия. Баллы за SAT лучше воспринимать в качестве функций правдоподобия: люди с высокими «истинными способностями» набирают 800 баллов чаще, чем люди со средними «истинными способностями», и так далее. Смешивая такие функции правдоподобия с априорными вероятностями (так, как это делает гендерно-зависимая корректировка баллов), ты затрудняешь комбинирование нескольких индикаторов.

Например, пусть 800 баллов, набранные женщиной, говорят о том же уровне «истинных способностей», что и 770 баллов, набранные мужчиной (благодаря различию априорных вероятностей и возможности несправедливого тестирования). Тогда «женские» 800 баллов, набранные дважды (в ходе двух независимых тестирований), будут говорить о большем уровне «истинных способностей», чем дважды набранные «мужские» 770 баллов. Гендерно-зависимая корректировка баллов хорошо работает для одного обособленного теста, но плохо показывает себя в ситуации, когда смешанных индикаторов несколько. Нелегко комбинировать несколько загрязнённых априорными вероятностями свидетельств (например, несколько скорректированных результатов SAT, или скорректированный SAT вместе со скорректированными рекомендательными письмами), не скосив результат в ту или иную сторону.

Общая идея всех этих примеров состоит в необходимости сохранять отношения правдоподобия. Вместо того, чтобы отслеживать кредит доверия к теории-лидеру, или помнить теорию, лучше всего характеризующую множество оставшихся возможностей (например, среднюю по всем теориям оценку качеств Джека), попытайся отслеживать, насколько вероятен весь набор имеющихся данных в свете той или иной гипотезы (а ещё тебе понадобится помнить все априорные вероятности). Я подозреваю, что эта тактика поможет и в борьбе с предвзятостью подтверждения; не знаю, проявятся ли после её использования какие-нибудь вредные побочные эффекты.

Главное предостережение: и в примере с монетой, и в примере с оценками незаурядности Джека, объединение отношений правдоподобия привело к более экстремальным убеждениям (в общем случае, объединение отношений правдоподобия может не привести к более экстремальным убеждениям, но оно почти всегда ведёт к точнее выраженным убеждениям). Если ты собираешься повторить это в домашних условиях, то удостоверься в том, что объединяемые индикаторы независимы. В противном случае ты рискуешь получить неоправданно экстремальные (или неоправданно специфичные) убеждения.

Выкладки, касающиеся примера про монету:

Раз апостериорная оценка Джеймса равна 39 %, то он явно наблюдал четыре орла и одну решку:

P(четыре орла и одна решка|монета несимметрична) = (0,75^4 • 0,25^1) = 0,079. P(четыре орла и одна решка|монета симметрична) = 0,031. P(монета несимметрична | четыре орла и одна решка) = (0,2•0,079)/(0,2•0,079 + 0,8•0,031) = 0,39, что и сообщил Джеймс.

Рассуждая аналогично, выясняем, что Джейн видела пять орлов и ни одной решки.

Подставляем в теорему Байеса девять орлов и одну решку:

P(монета несимметрична | девять орлов и решка) = ( 0,2 • (0,75^9 • 0,25^1) ) / ( 0,2 • (0,75^9 • 0,25^1) + 0,8 • (0,5^9 • 0,5^1) ) = 0,83, из чего и получается 83 % убеждение о том, что монета несимметрична

Перевод: 
BT
  • Короткая ссылка сюда: lesswrong.ru/54
Москва, 27 января — 17 февраля:
3-недельный курс прикладной рациональности
от рационального клуба Кочерга