Вы здесь

0 и 1 не являются вероятностями

Элиезер Юдковский

Один, два и три - это целые числа, как и минус четыре. Если считать в верхнюю или нижнюю сторону, можно встретить еще очень и очень много целых чисел. Как бы то ни было, вы никогда не доберетесь до того, что называется «положительной бесконечностью» или «отрицательной бесконечностью» - поэтому целыми числами они не являются.

Положительная и отрицательная бесконечности - это не целые числа, а, скорее, специальные символы для описания поведения целых чисел. Люди иногда говорят что-то вроде «5 + бесконечность = бесконечность», потому что, если начать отсчет с 5 и подниматься все выше и выше, никогда не останавливаясь, мы будем бесконечно получать все большие и большие числа. Но из этого не следует, что «бесконечность - бесконечность = 5». Не получится начать безостановочный отсчет с 0 вверх, затем безостановочный отсчет вниз, и в итоге прийти к числу 5.

Из этого можно заключить, что бесконечность не только не является целым числом - она не ведет себя как целое число. Если вы по неосторожности попытаетесь смешать бесконечности с целыми числами, вам придется определить особые нестабильные правила поведения, которые не нужны при работе с 1, 2, 3 и всеми остальными целыми числами.

Хотя бесконечность и не является целым числом, не стоит переживать по поводу того, что можно запутаться при работе с числами. Люди видели пять овец, миллионы песчинок и септиллионы атомов, но никто никогда не встречал бесконечность чего бы то ни было. То же самое справедливо и для непрерывных величин - люди измеряли пылинки размером в миллиметры, животных размером в метры, города длиной в километры и галактики размером в тысячи световых лет, но никто и никогда измерял что-то размером в бесконечность. В реальном мире понятие бесконечности особо не требуется.

(Более эрудированным читателям добавлю, что им не нужно детально объяснять мне, скажем, разницу между порядковыми и кардинальными числами. Да, я знаком с различными определениями бесконечности из теории множеств, но я не вижу пользы от их применения в теории вероятности. Подробнее ниже.)

При традиционном способе написания вероятностей их величины находятся между 0 и 1. Монета может выпасть орлом с вероятностью 0.5; синоптик может присвоить вероятность 0.9 тому, что завтра пойдет дождь.

Но это не единственный способ записи вероятностей. Вероятности можно, например, преобразовывать в шансы с помощью формулы O = (P / (1-P)). Так, вероятность 50% превратится в шансы 0.5/0.5, или 1, обычно записываемые как 1:1, в то время как вероятность 0.9 превратится в шансы 0.9/0.1, или 9, обычно записываемые как 9:1. Чтобы сделать обратное преобразование, нужно использовать формулу P = (O / (1+O)), и это превращение полностью обратимо и является изоморфным - вычисление величины вероятности возможно двумя обратимыми способами. Ввиду изоморфности вероятностей и шансов выбирать удобный способ можно на свое усмотрение.

Шансы, например, удобнее использовать при выполнении Байесианских обновлений. Представим, что я бросаю шестигранный кубик: если выпадает любая сторона, кроме 1, существует 10%-ный шанс услышать звонок, а если выпадает сторона 1, шанс услышать звонок становится 20%. Я бросаю кубик и слышу звонок. Каковы шансы на то, что выпала сторона 1? Априорные шансы - 1:5 (что соответствует числу 1/5 = 0.2), а отношение правдоподобия - 0.2:0.1 (что соответствует числу 2), и можно просто перемножить эти два числа и получить апостериорные шансы 2:5 (что соответствует числу 2/5 или 0.4). Затем, если мне нужно, я перевожу все это обратно в вероятности и получаю (0.4/1.4) = 2/7 = ~29%.

Итак, с шансами удобнее работать при Байесианских обновлениях - если использовать вероятности, придется применять теорему Байеса в ее более сложном виде. Но вероятности удобнее для вопросов вроде «Если я брошу шестигранный кубик, каковы шансы увидеть число от 1 до 4?» Можно сложить все вероятности величиной 1/6 для каждой стороны и получить 4/6, но нельзя сложить отношение шансов 0.2 для каждой стороны и получить отношение шансов 0.8.

Зачем я обо всем этом говорю? Чтобы показать, что «отношение шансов» - такой же разрешенный способ перевода неопределенности в реальные числа, как и «вероятности». Отношения шансов более удобны для одних операций, вероятности - для других. Знаменитое доказательство, называемое теоремой Кокса (плюс некоторые ее дополнения и усовершенствования), демонстрирует, что все способы выражения неопределенности, которые имеют разумные ограничения, в итоге оказываются друг другу изоморфны.

Почему важно то, что отношения шансов разрешены так же, как и вероятности? Вероятности в своем обычном виде записываются в виде чисел от 0 до 1, и оба крайних числа - 0 и 1 - кажутся вполне достижимыми величинами: можно легко встретить 1 зебру или 0 единорогов. Но при переводе вероятностей в шансы 0 остается 0, однако 1 превращается в положительную бесконечность. В этом случае абсолютная истина не кажется настолько легкодостижимой.

Форма, в которой Байесианские обновления делать даже удобнее - логарифмы отношения шансов; это тот способ, которым советовал думать о вероятностях Э. Т. Джейнс. Например, априорная вероятность утверждения равна 0.0001 - это соответствует логарифму отношения шансов величиной около -40 децибел. Затем вы видите свидетельство, которое кажется в 100 раз более правдоподобным в случае истинности этого утверждения, чем в случае его ложности. Это 20 децибел свидетельств. Теперь апостериорный логарифм отношения шансов равен примерно -40 дБ + 20 дБ = -20 дБ, что равно апостериорной вероятности около 0.01.

При переводе вероятностей в логарифмы отношения шансов 0 превращается в отрицательную бесконечность, а 1 - в положительную. Теперь и бесконечная определенность, и бесконечная невероятность кажутся еще более недостижимыми.

При использовании вероятностей величины 0.9999 и 0.99999 кажутся отличающимися всего на 0.00009, а 0.502 находится гораздо дальше от 0.503, чем 0.9999 - от 0.99999. Чтобы получить вероятность 1 из вероятности 0.99999, кажется, что надо преодолеть дистанцию всего лишь в 0.00001.

Но если перевести вероятности в отношения шансов, 0.502 и 0.503 становятся 1.008 и 1.012, а 0.9999 и 0.99999 превращаются в 9,999 и 99,999. А если перевести их в логарифмы отношения шансов, 0.502 и 0.503 превращаются в 0.03 и 0.05 децибел, а 0.9999 и 0.99999 становятся 40 и 50 децибелами.

При работе с логарифмами отношения шансов разница между двумя величинами неопределенности равна количеству свидетельств, которые нужны при переходе от одной величины к другой. Таким образом, логарифмы отношения шансов предоставляют удобный способ нахождения величины в пространстве степеней уверенности.

Использование логарифмов отношения шансов позволяет увидеть, что достижение бесконечной определенности требует бесконечно сильного свидетельства, также как и достижение бесконечной абсурдности требует бесконечно сильного контрсвидетельства.

Кроме того, все виды стандартных теорем в теории вероятности оговаривают особые случаи при использовании 1 и 0 - например, что происходит при попытке сделать Байесианское обновление наблюдения, которому была присвоена вероятность 0.

Так что, думаю, вполне разумно говорить о том, что 1 и 0 не входят в пространство величин вероятностей; как и отрицательная и положительная бесконечности, которые не подчиняются основным аксиомам булевой алгебры и не являются обычными числами.

Главная причина, по которой все это может расстроить тех, кто использует обычную теорию вероятности - это то, что придется заново выводить теоремы, полученные на основе предположения, что можно сложить все вероятности и получить 1.

Однако в реальном мире при броске кубика вероятность выпадения любого числа в диапазоне от 1 от 6 не является действительно бесконечной. Кубик может упасть на ребро, или уничтожиться в результате падения метеорита, или Темные Повелители Матрицы вмешаются и напишут «37» на одной из его сторон.

Если вы задали магический символ для «всех неучтенных возможностей», тогда вы можете игнорировать все события, описываемые этим магическим символом, и получить величину в виде магического символа «Т», который означает бесконечную уверенность.

Но я бы предпочел найти способ, в котором теорема работает без использования магических символов с особым поведением. Это было бы гораздо более изящно. Подобно математикам, которые отказываются принимать закон исключенного третьего или бесконечные множества, я бы хотел быть приверженцем теории вероятности, который не верит в абсолютную определенность.

Перевод: 
stas
  • Короткая ссылка сюда: lesswrong.ru/350