Правило Байеса: шансы

Материал из Вики LessWrong.ru
Перейти к: навигация, поиск

В одной из формулировок байесовское правило выглядит так: априорные шансы х соотношение условных шансов = апостериорные шансы.

Если мы рассмотрим водопадную визуализацию проблемы с Болезнитом, то будет наглядно видно, как относительные шансы помогают думать про два потока на вершине водопада.

Пропорциональное соотношение воды из красного потока к воде из синего будет тем же, независимо от того идет ли речь 200 и 800 литрах в секунду или о 20 000 и 80 000 литрах в секунду илл о 1 и 4 л/с. Пока и остальная часть водопада способствует сохранению пропорции, мы будем получать такую же пропорцию красной и синей воды внизу. Таким образом мы вполне оправданно можем игнорировать количество воды и рассматривать лишь пропорции.

Точно так же, важно пропорциональное соотношение между количеством попадающей в фиолетовый водоем воды из красного потока к количеству из синего, и соотношение между количеством молекул из каждого литра. Вниз падает 45% и 15% красной и синей воды и точно такое же соотношение между красной и синей водой внизу - 90% и 30%.

И это оправдывает игнорирование специфической информации о том что 90% красной воды падает вниз и 30% синей падает вниз, ведь это можно легко заменить соотношением (3 : 1).

Это можно применить и для других проблем: предположим, что у нас есть медицинский тест, выявляющий болезнь с истинноположительной точностью в 90% (10% ложноотрицательных) и 30% ложноположительных (70% ложноотрицательных). Положительный результат такого теста будет свидетельством такой же силы, как и для теста с 60% истинноположительными и 20% ложноположительными. А отрицательный результат такого теста будет свидетельством такой же силы, как и для теста с 9% ложноотрицательных и 63% истинноотрицательных.

В целом, сила свидетельства является соотношением того, насколько более/менее вероятными разные возможные состояния мира делают наблюдению специфических феноменов. Но об этом позже.

Уравнение

Чтобы действительно выразить ТБ в формулах и доказать ее, нам потребуется ввести несколько новых обозначений.

Условная вероятность

Во-первых, если Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle X} это утверждение, то Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle P(X)} это вероятность Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle X.}

Другими словами: Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle X} это что-то истинное или ложное в действительности, но у нас есть какая-то неопределенность по этому поводу, и Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle P(X)} - это способ выразить уровень нашей убежденности в том, что Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle X} истинно. Пациент, на самом деле, либо болен либо здоров, но если вы не уверены, свидетельство может способствовать сдвигу субъективной вероятности к 43% в пользу того, что он болен.

Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle \mathbb \neg X} означает "Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle X} ложно", так что Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle \mathbb P(\neg X)} означает "вероятность, что Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle X} ложно".

Задача про Болезнит включала больше утверждений посложней, например:

  • Вероятность в 90%, что у пациента почернеет депрессор, при условии что он заражен.
  • Вероятность в 30%, что у пациента почернеет депрессор, при условии что он здоров.
  • Вероятность в 3/7, что пациент заражен, при условии, что его депрессор почернел.

В этих случаях мы идем от факта про который мы "знаем" или "предполагаем", что он истинен (справа), к утверждению (слева), вероятность которого мы оцениваем, принимая во внимание "известный" факт.

Такие вероятностные утверждения называются "условными вероятностями". Если выразить приведенные выше утверждения с помощью стандартных формул, то они будут выглядеть так:

  • Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle \mathbb P(blackened \mid sick) = 0.9}
  • Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle \mathbb P(blackened \mid \neg sick) = 0.3}
  • Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle \mathbb P(sick \mid blackened) = 3/7}

(прим. blackened - почерневший депрессор; sick - зараженный)

<sarcasm>Стандартная запись Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle \mathbb P(X \mid Y)} означающая "вероятность Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle X} , при условии что Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle Y} истинно", содержит "полезную" вертикальную линию, которая, в свою очередь, не дает никаких визуальных подсказок о том, что справа находится предполагаемый факт, а слева - выводимый. </sarcasm>

Вот как определяется условная вероятность, при использовании обозначений Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle X \wedge Y} для обозначения "X и Y" или же "оба Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle X} и Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle Y} истинны":

Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle \mathbb P(X \mid Y) := \frac{\mathbb P(X \wedge Y)}{\mathbb P(Y)}}

Т.е. с точки зрения задачи с Болезнитом, Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle \mathbb P(sick \mid blackened)} вычисляется путем деления 18% больных студентов с почерневшим депрессором (Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle \mathbb P(sick \wedge blackened)} ) на 42% всех с почерневшим депрессором (Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle \mathbb P(blackened)} ).

Или рассмотрим Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle \mathbb P(blackened \mid \neg sick),} - вероятность того, что депрессор почернеет, при условии что пациент здоров. Что эквивалентно делению 24 здоровых студентов с почерневшим депрессором на 80 здоровых. 24 / 80 = 3/10, что соответствует 30% ложноположительных результатов из начальных условий.

Закон условных вероятностей можно выразить так: "Сосредоточим все внимание на возможных мирах, где Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle Y} истинно, или истинны Y-подобные штуки. Рассматривая лишь случаи где Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle Y} истинно, сколько мы найдем случаев внутри этого множества, где еще и Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle X} истинно? Т.е. где истинно Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle Y} и Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle X} ?

Для получения дополнительной информации обратитесь к статье про условные вероятности.

Правило Байеса.

Правило Байеса гласит: априорные шансы х соотношение условных шансов = апостериорные шансы.

Что для задачи про Болезнит будет выглядеть так:

Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle \dfrac{\mathbb P({sick})}{\mathbb P(healthy)} \times \dfrac{\mathbb P({blackened}\mid {sick})}{\mathbb P({blackened}\mid healthy)} = \dfrac{\mathbb P({sick}\mid {blackened})}{\mathbb P(healthy\mid {blackened})}.} (прим. blackened - почерневший депрессор; sick - зараженный; healthy - здоровый)

Априорные шансы означают соотношение больных пациентов к здоровым Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle 1 : 4} . Превращение этих шансов в вероятности даст нам Невозможно разобрать выражение (MathML с переходом в SVG или PNG (рекомендуется для современных браузеров и инструментов повышения доступности): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://en.wikipedia.org/api/rest_v1/»:): {\displaystyle \mathbb P(sick)=\frac{1}{4+1}=\frac{1}{5}=20\%} .