0 и 1 не являются вероятностями

Элиезер Юдковский

Один, два и три являются целыми числами, как и минус четыре. Если вы будете считать в верхнюю или нижнюю сторону, вам встретится еще очень и очень много целых чисел. Как бы то ни было, вам никогда не встретится то, что называется «положительной бесконечностью» или «отрицательной бесконечностью» - следовательно, они не являются целыми числами.

Положительная и отрицательная бесконечности являются не целыми числами, а скорее специальными символами для описания поведения целых чисел. Иногда люди говорят что-то вроде «5 + бесконечность = бесконечность», потому что, если вы начнете считать с 5 и будет подниматься выше, никогда не останавливаясь, вы будете бесконечно получать все большие и большие числа. Но из этого не следует, что «бесконечность - бесконечность = 5». У вас не получится начать безостановочный отсчет с 0 вверх, затем безостановочный отсчет вниз, и прийти к числу 5 в итоге.

Из этого мы можем заключить, что бесконечность не только не является целым числом - оно не ведет себя как целое число. Если вы по неосторожности попытаетесь смешать бесконечности с целыми числами, вам нужно будет определить особые нестабильные правила поведения, которые не требуются при работе с 1, 2, 3 и всеми остальными целыми числами.

Даже несмотря на то, что бесконечность не является целым числом, вам не стоит переживать по поводу того, что вы можете запутаться при работе с числами. Хоть люди и видели пять овец, миллионы песчинок и септиллионы атомов, никто никогда не встречал бесконечность чего-то. То же самое справедливо и для непрерывных величин - люди измеряли пылинки размером в миллиметры, животных размером в метры, города длиной в километры и галактики размером в тысячи световых лет, но никто и никогда измерял что-то размером в бесконечность. В реальном мире вам особо не нужно понятие бесконечности.

(Я должен заметить для более эрудированных читателей, что им не нужно детально объяснять мне, скажем, разницу между порядковыми и кардинальными числами. Да, я знаком с различными определениями бесконечности из теории множеств, но я не вижу пользы от их применения в теории вероятности. Смотрите ниже.)

При традиционном способе написания вероятностей их величины находятся между 0 и 1. Монета может выпасть орлом с вероятностью 0.5; синоптик может присвоить вероятность 0.9 тому, что завтра пойдет дождь.

Но это не единственный способ записи вероятностей. Например, вероятности можно преобразовывать в шансы с помощью формулы O = (P / (1-P)). Так, вероятность 50% превратится в шансы 0.5/0.5, или 1, обычно записываемые как 1:1, в то время как вероятность 0.9 превратится в шансы 0.9/0.1, или 9, обычно записываемые как 9:1. Чтобы сделать обратное преобразование, нужно использовать формулу P = (O / (1+O)), и это превращение полностью обратимо и является изоморфным - нахождение числового выражения вероятности возможно двумя обратимыми способами. Ввиду изоморфности вероятностей и шансов выбирать удобный способ можно на свое усмотрение.

Например, шансы удобнее использовать тогда, когда вы делаете Байесианские обновления. Представим, что я бросаю шестигранный кубик: если выпадает любая сторона, кроме 1, существует 10%-ный шанс услышать звонок, а если выпадает 1, шанс услышать звонок становится 20%. Я бросаю кубик и слышу звонок. Каковы шансы на то, что выпала сторона 1? Итак, априорные шансы 1:5 (что соответствует числу 1/5 = 0.2), а отношение правдоподобия - 0.2:0.1 (что соответствует числу 2) и я могу просто перемножить эти два числа и получить апостериорные шансы 2:5 (что соответствует числу 2/5 или 0.4). Затем я перевожу все это обратно в вероятности, если нужно, и получаю (0.4/1.4) = 2/7 = ~29%.

Так что с шансами удобнее работать при Байесианских обновлениях - если использовать вероятности, придется применять теорему Байеса в ее более сложном виде. Но вероятности удобнее для ответа на вопросы вроде «Если я брошу шестигранный кубик, каковы шансы увидеть число от 1 до 4?» Можно сложить все вероятности величиной 1/6 для каждой стороны и получить 4/6, но нельзя сложить отношение шансов 0.2 для каждой стороны и получить отношение шансов 0.8.

Зачем я говорю все это? Чтобы показать, что «отношение шансов» - такой же разрешенный способ перевода неопределенности в реальные числа, как и «вероятности». Отношения шансов более удобны для одних операций, вероятности - для других. Знаменитое доказательство, называемое теоремой Кокса (плюс некоторые ее расширения и усовершенствования), показывает, что все способы выражения неопределенности, которые имеют разумные ограничения, в итоге оказываются изоморфны друг другу.

Почему важно то, что отношения шансов так же разрешены, как и вероятности? Вероятности в своем обычном виде записываются в виде чисел от 0 до 1, и оба числа 0 и 1 кажутся вполне достижимыми величинами - легко встретить 1 зебру или 0 единорогов. Но когда вы переводите вероятности в шансы, 0 остается 0, но 1 превращается в положительную бесконечность. В таком случае абсолютная истина не кажется легкодостижимой.

Форма, в которой Байесианские обновления делать даже удобнее - логарифмы отношения шансов; это тот способ, которым Э.Т.Джейнс советовал думать о вероятностях. Например, априорная вероятность утверждения равна 0.0001 - это соответствует логарифму отношения шансов величиной около -40 децибел. Затем вы видите свидетельство, которое кажется в 100 раз более правдоподобным в случае истинности этого утверждения, чем в случае его ложности. Это 20 децибел свидетельств. Теперь апостериорный логарифм отношения шансов равен примерно -40 дБ + 20 дБ = -20 дБ, что равно апостериорной вероятности около 0.01.

При переводе вероятностей в логарифмы отношения шансов 0 превращается в отрицательную бесконечность, а 1 - в положительную бесконечность. Теперь и бесконечная определенность, и бесконечная невероятность кажутся еще более недостижимыми.

При использовании вероятностей величины 0.9999 и 0.99999 кажутся отличающимися всего на 0.00009, и 0.502 находится гораздо дальше от 0.503, чем 0.9999 - от 0.99999. Чтобы получить вероятность 1 из вероятности 0.99999, кажется, что надо преодолеть дистанцию всего лишь в 0.00001.

Но если перевести вероятности в отношения шансов, 0.502 и 0.503 становятся 1.008 и 1.012, а 0.9999 и 0.99999 превращаются в 9,999 и 99,999. А если перевести их в логарифмы отношения шансов, 0.502 и 0.503 превращаются в 0.03 децибел и 0.05 децибел, а 0.9999 и 0.99999 становятся 40 децибелами и 50 децибелами.

Когда вы работаете с логарифмами отношения шансов, разница между двумя величинами неопределенности равна количеству свидетельств, которые вам нужны при переходе от одной величины к другой. Таким образом, логарифмы отношения шансов дают нам удобный способ нахождения величины в пространстве степеней уверенности.

Использование логарифмов отношения шансов позволяет увидеть, что достижение бесконечной определенности требует бесконечно сильного свидетельства, также как и достижение бесконечной абсурдности требует бесконечно сильного контрсвидетельства.

Кроме того, все виды стандартных теорем в теории вероятности оговаривают особые случаи, когда вы пытаетесь использовать в них 1 и 0 - например, что происходит, когда вы пытаетесь сделать Байесианское обновление наблюдения, которому вы присвоили вероятность 0.

Так что, я думаю, разумно говорить о том, что 1 и 0 не входят в пространство величин вероятностей; как и отрицательная и положительная бесконечности, которые не подчиняются основным аксиомам булевой алгебры и не являются обычными числами.

Главная причина, по которой все это может расстроить тех, кто использует обычную теорию вероятности - это то, что нам придется заново выводить теоремы, полученные на основе предположения, что мы можем сложить все вероятности и получить 1.

Однако в реальном мире, когда вы бросаете кубик, вероятность выпадения любого числа в диапазоне от 1 от 6 не является действительно бесконечной. Кубик может упасть на ребро, или уничтожиться в результате падения метеорита, или Темные Повелители Матрицы вмешаются и напишут «37» на одной из сторон.

Если вы задали магический символ для «всех возможностей, который я не учел», тогда вы можете игнорировать все события, описываемые этим магическим символом, и получить величину в виде магического символа «Т», которая означает бесконечную уверенность.

Но я бы предпочел найти способ, в котором теорема работает без использования магических символов с особым поведением. Это было бы гораздо более изящно. Точно также, как существуют математики, которые отказываются принимать закон исключенного третьего или бесконечные множества, я бы хотел быть приверженцем теории вероятности, который не верит в абсолютную определенность.

Перевод: 

stas
  • Короткая ссылка сюда: lesswrong.ru/350