Общая информация и плотность в пространстве вещей

Элиезер Юдковский

Предположим, у вас есть система $Х$, которая может находиться в одном из 8 состояний и все они равновероятны (относительно того, что вы о них знаете на данный момент), и система $Y$ с 4 равновероятными состояниями.

Энтропия $Х$, как следует из рассказанного вчера — 3 бита; нам потребуется задать 3 да/нет вопроса, чтобы точно узнать состояние $Х$. Энтропия $Y$, как следует из рассказанного вчера — 2 бита; нам потребуется задать 2 да/нет вопроса. Это может показаться очевидным (с учетом того, что $2^3=8$ и $2^2=4$ — три вопроса помогут выявить правду между 8 возможными вариантами, а 2 между 4), но хочу напомнить, что если бы вероятности не были бы равными, мы смогли бы использовать более хитрый код для обнаружения, например, состояния $Y$ (1,75 вопросов в среднем). Но раз уж для Х и Y вероятности распределены равномерно, схитрить у нас не получится.

Какова общая энтропия объединенной системы $(X,Y)$?

Возможно вам придет в голову ответ: «Для $X$ потребует 3 вопроса, для $Y$ — 2, так что нам потребуется задать всего 5 вопросов, чтобы узнать $(X,Y)$».

Но что если эти две переменные связаны и, узнав что-то о $Y$, мы узнаем кое-то и о $X$?

В данном случае предположим, что обе переменные либо четные либо нечетные.

И если мы получим сообщение в 3 бита (получим 3 ответа), узнаем, что $Х$ находится в состоянии 5, то будем знать, что $Y$ либо в состоянии 1 либо в 3, но не в 2 или 4. Так что лишь один вопрос «$Y$ в состоянии 3?» и ответ «нет» понадобится нам, что бы знать состояние объединенной системы $$(X,Y): X=X5, Y=Y1$$ И обнаружили мы это с помощью 4 вопросов.

Точно так же, если мы узнаем, что $Y$ в 4 состоянии, с помощью 2 вопросов, то нам понадобится лишь два вопроса, чтобы узнать, в каком из состояний $(2,4,6,8)$ находится $Х$. Опять же, лишь 4 вопроса, чтобы узнать состояние связанной системы.

Общая энтропия двух переменных определяется как разность между энтропией независимых систем и энтропией связанной системы :$$ I(X;Y) = H(X) + H(Y) - H(X,Y)$$

В данном случае между системами есть 1 бит общей информации. Узнав $Х$, мы получаем 1 бит информации о $Y$ (что сокращает пространство возможностей с 4 до 2, снижает размер в два раза). А информация о состоянии $Y$ сокращает пространство возможностей с 8 до 4.

Но как насчет случаев, где масса вероятности распределена не равномерно? Вчера, например, мы обсуждали случай $Y$, где вероятности были распределены как $1/2$, $1/4$, $1/8$, $1/8$ для 4 возможных состояний. Давайте условимся, что так будет выглядеть распределение вероятностей для $Y$, если мы будем рассматривать $Y$ независимо. Как если бы мы знали $Y$ и больше ничего. И введем еще переменную $Z$ с 2 возможными состояниями, с вероятностями $3/8$ и $5/8$.

В таком случае, только в том случае, когда объединенное распределение между этими переменными выглядим как описано ниже, — между ними нет общей информации:

$$(Z1Y1: 3/16) (Z1Y2: 3/32) (Z1Y3: 3/64) (Z1Y3: 3/64)$$

$$(Z2Y1: 5/16) (Z2Y2: 5/32) (Z2Y3: 5/64) (Z2Y3: 5/64)$$

Это распределение подчиняется закону:

$$P(Y,Z) = P(Y)P(Z)$$

Например,$$ P(Z1Y2) = P(Z1)P(Y2) = 3/8 * 1/4 = 3/32$$

Заметьте, что мы можем узнать маргинальные (независимые) вероятности $Y$ и $Z$ просто посмотрев на объединенное распределение:

$P(Y1)$ — полная вероятность всех возможных состояний $Y1$ в общем распределении:

$$P(Y1) = P(Z1Y1) + P(Z2Y1) = 3/16 + 5/16 = 1/2$$

Так что просто проанализировав общее распределение, мы можем определить являются ли маргинальные переменные $Y$ и $Z$ независимыми; т.е. когда объединенное распределение разлагается на маргинальные распределение — когда для всех $Y$ и $Z$ $P(Y,Z) = P(Y)P(Z)$.

И это важно, ведь в соответствии с теоремой Байеса:

$$P(Yi,Zj) = P(Yi)P(Zj)$$

$$P(Yi,Zj)/P(Zj) = P(Yi)$$

$$P(Yi|Zj) = P(Yi)$$

Что можно выразить словами: после того, как мы узнали состояние $Zj$, наше знание о $Yi$ никак не изменилось.

Так что когда распределение разлагается, когда $P(Y,Z) = P(Y)P(Z)$, то это равноценно тому, что мы, узнав о $Y$, не получим никакой информации о $Z$, и наоборот.

И зная это, вы можете, совершенно справедливо, начать подозревать, что между $Y$ и $Z$ нет общей информации. А там где нет общей информации, нет и байесианских свидетельств и наоборот.

Предположим, что в вышепоказанном распределении $YZ$ мы будем рассматривать каждое возможное сочетание $Y$ и $Z$, как отдельное событие — так что это распределение будет иметь всего 8 возможных вариантов с уже известными вероятностями, тогда мы сможем вычислить энтропию $YZ$ точно так же, как и в прошлый раз:

$$3/16∗ log2(3/16) + 3/32∗ log2(3/32) + 3/64∗ log2(3/64) + … + 5/64∗ log2(5/64))$$

У вас получится тот же ответ, как если бы вы отдельно посчитали энтропии систем, а затем сложили бы их. Поскольку между системами нет общей информации, наша неопределенность относительно состояния совмещенных систем точно такая же, как и относительно суммы взятых отдельно. (Вычисления я тут показывать не стану — вы и сами можете это сделать, что касается доказательства — ищите «энтропию Шеннона» («Shannon entropy») или «общую информацию» («mutual information»).)

Но что если объединенное распределение не разлагается? Например:

$$(Z1Y1: 12/64) (Z1Y2: 8/64) (Z1Y3: 1/64) (Z1Y4: 3/64)$$

$$(Z2Y1: 20/64) (Z2Y2: 8/64) (Z2Y3: 7/64) (Z2Y4: 5/64)$$

Если вы сложите объединенные вероятности, чтобы получить маргинальные, вы обнаружите, что $P(Y1) = 1/2, P(Z1) = 3/8$, и так далее — маргинальные вероятности такие же, как и раньше.

Но объединенные вероятности не всегда равны сумме маргинальных. Например, вероятность $P(Z1Y2) = 8/64$, где $P(Z1)P(Y2)$ будут $3/8 * 1/4 = 6/64$. Т.е. вероятность встретить $Z1Y2$ выше, чем мы бы ожидали, просто учитывая вероятности $Z1$ и $Y2$ отдельно.

Что в свою очередь подразумевает:

$$P(Z1Y2) > P(Z1)P(Y2)$$

$$P(Z1Y2)/P(Y2) > P(Z1)$$

$$P(Z1|Y2) > P(Z1)$$

И раз тут «необычайно высокая» вероятность $P(Z1Y2)$ определена как более высокая, чем можно предположить, отдельно рассмотрев маргинальные, можно сделать вывод, что наблюдение $Y2$ увеличит вероятность наблюдать $Z1$ и наоборот.

Поскольку есть какие-то состояния $Y$, дающие нам информацию и о $Z$ (и наоборот), между ними должна быть общая информация, что вы и обнаружите — я уверен, хоть и не проверял — в результате вычисления энтропии $YZ$ вы получите меньше неопределенности, чем в результате вычисления отдельно $Y$ и $Z$. $H(Y,Z) = H(Y) + H(Z) - I(Y;Z)$ будут все больше нуля с логической необходимостью.

(Отступлю немного от темы для небольшого замечания. Симметрия общей информации показывает, что $Y$ сообщает нам столько же о $Z$, в среднем, сколько $Z$ об $Y$. В качестве упражнения для читателей я оставлю сопоставление этого и того, что рассказывают на курсах по логике. Что из того, что все вороны черные, следует что все вороны черные, но не следует, что все черные штуки — вороны. Насколько отличается симметричное движение вероятностей байесианства от угловатой логики, даже несмотря на то, что последняя — лишь вырожденная версия первого?)

И тут вы спросите: «Какое все это имеет отношение к правильному использованию слов?»

В «Пустых ярлыках» и «Замени символ на суть», вы видели пример замены слова его определением с примером:

Все [смертные, ~без перьев, двуногие] смертны

Сократ [смертен, ~без перьев, двуногий]

Следовательно, Сократ смертен

Так зачем же нам нужно слово «человек»? Почему бы просто не сказать «Сократ смертный, без перьев и двуногий»?

Потому что полезно иметь короткие слова для часто встречающихся штук. Если ваш код для отдельных характеристик уже эффективен, то вы не получите никакого преимущества от введения специального слова для конъюнкции: например, «человек» для «смертный, без перьев, двуногий», разве что смертные штуки, штуки без перьев и двуногие штуки встречаются в реальности чаще, чем стоило бы ожидать лишь на основе маргинальных вероятностей.

В эффективных кодах длина сообщения соответствует вероятности, т.е. код для $Z1Y2$ будет такой же длины, как и сумма кодов $Z1$ и $Y2$, разве что $P(Z1Y2) > P(Z1)P(Y2)$, тогда код для $Z1Y2$ будет короче, чем сумма отдельно взятых кодов.

Это как раз соответствует ситуации, где мы можем сделать вывод об одних характеристиках вещи, пронаблюдав наличие у нее других. Для этого вероятность, что двуногие без перьев окажутся смертными, должна быть более дефолтной.

Разумеется, слово «человек» описывает очень много свойств. Когда вы видите сущность человеческой формы, которая говорит и носит одежду, то можете предположить множество биохимических, анатомических и когнитивных фактов о ней. Чтобы заменить «человек» на описание всего, что мы можем сказать о людях, нам потребуется запредельно много времени. Но это так лишь потому, что говорящие штуки с двумя ногами и без перьев более вероятны, чем маргинальные вероятности позволят предположить, уязвимы для болиголова, или имеют плоские ногти, или сверхуверенны.

Наличие одного слова для вещи вместо перечисления ее свойств позволяет сделать код компактней именно в тех случаях, когда можно предположить наличие одних свойств, основываясь на наблюдении других. (За исключением таких базовых слов как «красный», которое может быть использовано для передачи несжатого описания нашего сенсорного переживания. Но уже в случае с жуком или камнем, мы будем иметь дело со сложными совокупностями свойств, намного превышающими базовый уровень.)

Поэтому наличие слова «виггин» для зеленоглазых черноволосых людей полезней, чем просто «зеленоглазые черноволосые люди», именно тогда:

Когда зеленоглазые люди, в среднем, более вероятно являются еще и черноволосыми (и наоборот), т.е. мы можем сделать вероятностный вывод о «зеленоглазости», после наблюдения «черноволосости» и наоборот.
Или же когда виггины имеют другие свойства, о которых можно сделать вероятностное предположение с большей, чем сумма маргинальных, вероятностью. В данном случае нам потребуется независимо проследить за наличием черных волос и зеленых глаз, а затем можно сделать вероятностный вывод о других свойствах (вроде пристрастия к кетчупу).

Можно даже рассматривать наличие слова как своего рода обещание. Сказать кому-то «Я определяю слово «виггин» как человека с черными волосами и зеленым глазами», в соответствии с импликатурой Грайса, значит пообещать, что слово «виггин» каким-то образом поможет предположить зависимость между черными волосами и зелеными глазами и укоротить код.

Если зеленые глаза и черные волосы не встречаются с большей, чем сумма маргинальных, вероятностью, или же никакое другое свойство не встречается чаще в сочетании с этим цветом волос и цветом глаз, то слово «виггин» является ложью. Оно утверждает, что определенных людей стоит выделять в группу, а они группой не являются.

В данном случае слово «виггин» не помогает более компактно описывать реальность, ведь оно не предназначалось как помогающее сократить длину сообщения. Тогда ему не место в массиве простых объяснений. Точно так же «виггин» не поможет сделать байесианский вывод. Даже если вам неудобно называть слово «ложью», оно, как минимум, — ошибка.

Разрезать реальность по месту естественного соединения частей — проводить границы вокруг необычно плотно сконцентрированных вероятностей в пространстве вещей.

Перевод:

Muyyd

Ссылка на оригинал:

Mutual Information, and Density in Thingspace

Номер в книге "Рациональность: от ИИ до зомби":

175

Оцените качество перевода: