Вы здесь

Энтропия и короткие сообщения

Элиезер Юдковский

Предположим, у нас есть система Х, которая с одинаковой вероятностью может находиться в любом из 8 возможных состояний:

$${X1, X2, X3, X4, X5, X6, X7, X8.}$$

Есть такая экстраординарно распространенная мера — в физике, математике, и даже в биологии, называется она «энтропия». И энтропия Х составляет 3 бита. Это значит, что для выяснения состояния Х нам в среднем понадобиться 3 да/нет вопроса. Например, кто-то может нам рассказать о значении Х с помощью такого кода:

$$(X1:001) (X2:010) (X3:011) (X4:100)$$

$$(X5:101) (X6:110) (X7:111) (X8:000)$$

Так что если я спросил бы «Первый символ 1?» и получил бы ответ «да»; «второй символ 1?» и услышал бы «нет»; «третий символ 1?» — «нет»; то я бы знал, что Х находится в состоянии 4.

Теперь предположим, что у системы Y есть четыре возможных состояния с таким распределением вероятностей:

$$Y1: 1/2 (0,5) $$
$$Y2: 1/4 (0,25) $$
$$Y3: 1/8 (0,125) $$
$$ Y4: 1/8 (0,125)$$

Тогда энтропия Y будет равна 1, 75 бит, что значит нам понадобится 1, 75 вопросов в среднем, чтобы узнать значение Y.

В каком смысле можно задать один и три-четвертых вопроса? Представьте, что мы используем следующий код для описания состояния Y:

$$(Y1:1) (Y2:01) (Y3:001) (Y4:000)$$

Сначала вы спросите «первый символ 1?», и если ответ «да», то задача решена: Y находится в состоянии 1. И такое происходит в половине случаев — состояние Y можно вычислить с помощью одного вопроса.

Предположим, что вы получили ответ «нет». Тогда вы спрашиваете: «второй символ 1?» Если ответ «да», то вы закончили: Y находится в состоянии 2. И это происходит с вероятностью в 1/4, и каждый раз, когда Y в состоянии 2, мы можем узнать это с помощью двух да/нет вопросов — в 25% случаев понадобится два вопроса для определения состояния Y.

Если же вы получили ответ «нет» два раза подряд, и, спросив «третий символ 1?», получили ответ «да», то задача решена и Y в состоянии 3; если нет, то Y в состоянии 4. В 1/8 случаев Y в состоянии 3 и понадобится три вопроса. И в 1/8 случаев Y в состоянии 4 и понадобится три вопроса.

$$(1/2 * 1) + (1/4 * 2) + (1/8 * 3) + (1/8 * 3) = 0.5 + 0.5 + 0.375 + 0.375 = 1.75.$$

Общая формула определения энтропии системы S это сумма всех Si — $p(Si)*log2(p(Si))$.

Например,log(base 2) числа 1/8 это -3. Получается $-(1/8 * -3) = 0.375$ — часть энтропии состояния 4 от всей энтропии системы Y — три вопроса.

Закодировать любую систему идеальным кодом получится не всегда, но если вам потребуется передать кому-то сообщение о состоянии случайного количества копий S за один раз, вы можете приблизиться к идеальному коду на случайную величину. (Гуглите «арифметическое кодирование»).

Конечно, вы можете спросить: «Почему бы не закодировать Y4 с помощью 10 вместо 000? Так ведь будет быстрей?»

Но если вы используете 10 для Y4 и получите ответ «да» на вопрос «первый символ 1?», то у вас все еще останется неопределенность: Y1 (1) или Y4 (10). Даже больше, если вы измените код таким образом, вся система полетит к чертям — услышав «1001», вам останется только гадать — «Y4 и Y2» или «Y1 и Y3».

Мораль в том, что короткие слова — ограниченный ресурс.

Ключевой момент в создании хорошего кода, который позволит передавать сообщения максимально компактно, в использовании коротких слов для того, о чем вы будете часто говорить, а длинных — о чем реже.

На своем пике это искусство позволяет добиться почти идеального соответствия между длиной сообщения и вероятностью. Это так называемая «Сообщение минимальной длины» или «Минимальная длина описания» формализация бритвы Оккама.

Так что даже используемые нами ярлыки для слов не совсем случайны. Звуки, которые мы привлекаем для ссылок на идеи могут быть лучше или хуже, мудрей или глупей. И это независимо от традиционного понимания!

Я говорю это все потому что идея «вы можете Х так как вам заблагорассудится» сильно мешает понять как делать Х с умом. «Это свободная страна, и я имею право на свое мнение» — стоит на пути у искусства поиска истины. «Я могу определить слово так, как захочу» — стоит на пути разделения реальности на естественные составные части. И даже кажущееся разумным «Прикрепленные к словам ярлыки случайны» стоит на пути осведомленности о компактности. Стихосложения тоже, если уж говорить об этом — Толкиен однажды заметил, как красиво звучит фраза «cellar door»; таков уровень осведомленности нужен, чтобы использовать язык как Толкиен.

Длина слов так же играет нетривиальную роль к когнитивной науке языка:

Давайте рассмотрим слова «сиденье», «стул» и «мебель». «Сиденье» — более специфическая категория чем «стул»; «мебель»— более общая. Но большая часть стульев объединена сходными способами их использования — похожие движения, чтобы сесть или встать, похожие причины для сидения — отдых, принятие пищи, чтение. «Сиденья» в этом отношении тоже не слишком отличаются. «Мебель» же включает в себя вещи вроде кроватей, столов, по-разному использующихся и требующих разных телодвижений.

В терминологии когнитивной психологии «стул» относится к базовым категориям.

У людей есть привычка говорить и, предположительно — думать, на базовом уровне категоризации. Проводить границы вокруг «стульев», чем вокруг более конкретной категории «сидений», или же вокруг более общей категории «мебели». Человек скорее предложит присесть на стул, чем сесть на сидение или посидеть на мебели.

Так что тут нет совпадения относительно длины этих слов. Базовые категории, обычно, имеют более короткие названия, и существительные с короткими названиями обычно относятся к базовым категориям. Это не универсальный лингвистический закон, но такая тенденция определенно присутствует. Частое употребление сопутствует коротким словам, а короткие слова — частому употреблению.

Или же как выразил это Дуглас Хофштадтер , есть причины на то, чтобы в английском языке «the» означало «the», а «antidisestablishmentarianism» использовалось для «antidisestablishmentarianism», а не наоборот.

Перевод: 
Muyyd
  • Короткая ссылка сюда: lesswrong.ru/361