Вы здесь

Аргумент затмевает авторитет

Элиезер Юдковский

Байесианец с черным поясом steven в своем блоге пытается объяснить асимметрию между хорошими аргументами и весомым авторитетом, однако он не сумел дать ответы на все комментарии к предыдущей статье, так что этим займусь я.

Первая ситуация: Барри — знаменитый геолог. Чарли — четырнадцатилетний подросток, неоднократно попадавший в полицию и подверженный психопатическим приступам. Барри решительно доказывает Артуру определенное контринтуитивное утверждение о скалах и Артур присваивает его утверждению вероятность в 90%, что оно истинно. Тогда Чарли также приводит равное контринтуитивное утверждение о скалах, и Артур присваивает его утверждению только 10% вероятности, что оно истинно. Очевидно, что Артур принимает во внимание авторитет источника, когда решает, чьим утверждениям верить.

Вторая ситуация: Дэвид делает контринтуитивное утверждение касательно физики и дает Артуру подробное объяснение аргументов, включая отсылки. Эрни делает аналогичное контринтуитивное утверждение, однако аргументирует крайне слабо, кое-где предлагая просто поверить ему. Как Дэвид, так и Эрни утверждают, что это наилучшее объяснение, которое они могут дать (любому человеку, не только Артуру). Артур присваивает 90% вероятности быть истинным утверждению Дэвида, и только 10% утверждению Эрни.

Может показаться, что оба сценария в принципе похожи: в обоих во внимание берутся полезные свидетельства: сильный авторитет против слабого, сильный аргумент против слабого.

Однако теперь предположим, что Артур просит Барри и Чарли привести полное объяснение с отсылками; и оба они делают одинаково хорошие объяснения, которые, как видит Артур, совпадают. Тогда Артур просит Дэвида и Эрни показать свои документы и оказывается, что они примерно одинаковы тоже — возможно они оба клоуны, а может оба — физики, не имеет значения.

Предполагая, что Артур компетентен достаточно, чтобы разобраться во всех приведенных аргументах — иначе они не более чем шум — кажется, что Артур должен рассматривать Дэвида как обладающего значительным преимуществом над Эрни, в то время как Барри если и превосходит Чарли, то совсем немного.

В самом деле, если технические аргументы достаточно хороши, то у Барри нет никакого преимущества перед Чарли. Хороший технический аргумент это то, что может уменьшить степень доверия к личному авторитету говорящего.

Точно так же, если мы верим Эрни, что он выдал нам лучший аргумент из тех, что мог, включая все логические шаги, которые он выполнил и все источники, на которые опирался — и которые цитировал — тогда мы можем игнорировать любую информацию о документах Эрни. Не имеет значения, клоун он или физик. (Опять же предполагается, что мы достаточно эрудированы, чтобы понять его аргументы. В любом другом случае Эрни просто произносит какие-то загадочные слова и то, поверим ли мы им, зависит в большей степени как раз-таки от его авторитета.)

Таким образом кажется, что между аргументами и авторитетом есть своеобразная асимметрия. Если мы знаем об авторитете, то мы все еще хотели бы услышать и аргументы; однако когда мы услышали аргументы, вряд ли нам нужно будет знать авторитетность источника.

Очевидно (скажет неопытный человек) авторитет и аргумент являются фундаментально различными видами свидетельства, различие которых непостижимо при помощи до скуки ясных методов байесовской теории вероятности. Поскольку при одинаковой силе свидетельства, 90% против 10%, ситуации ведут себя по-разному. Как же нам поступить?

Здесь примерно половина технической демонстрации того, как представить эту разницу в теории вероятности. (Остальное вы можете принять на веру, положившись на мой авторитет, или посмотреть в отсылках.)

Если $p(H|E_1) = 90\%$ и $p(H|E_2) = 9\%$, какова вероятность $p(H|E_1,E_2)$? Если признание Е₁ истиной дает нам возможность присвоить Н вероятность в 90%, и признание Е₂ истиной дает возможность присвоить Н вероятность в 9%, какую вероятность мы должны присвоить Н, если верны и Е₁ и Е₂? Это просто не что-либо, что вы можете вычислить в теории вероятности из имеющейся информации. Нет, отсутствующая информация это не априорные сведения об Н. Е₁ и Е₂ могут быть не независимыми друг от друга.

Предположим, что Н это «моя дорожка скользкая», Е₁ это «разбрызгиватель работает» и Е₂ это «сейчас ночь». Дорожка становится скользкой, если разбрызгиватель работает не меньше минуты и остается такой до тех пор, пока он не выключится. Так что если мы знаем, что разбрызгиватель включен, то с 90% вероятностью дорожка скользкая. Разбрызгиватель включен 10% ночного времени, так что если сейчас ночь, то вероятность того, что дорожка скользкая — 9%. Если же мы знаем, что сейчас ночь и разбрызгиватель включен — то есть если нам известны оба факта — вероятность того, что дорожка скользкая, равна 90%.

Мы можем представить это графически следующим образом:

Ночь → Разбрызгиватель → Скользкая дорожка

Ночь может приводить к включению разбрызгивателя, а включение разбрызгивателя может приводить к скользкой дорожке.

Тут важны направления стрелок. Если я напишу:

Ночь → Разбрызгиватель ← Скользкая дорожка

Это означало бы, что если я не знаю ничего о разбрызгивателе, то вероятности того, что была ночь и что дорожка скользкая будут независимы друг от друга. Для примера предположим, что я бросаю одну кость и вторую кость, а потом складываю выпавшие числа в сумму:

Кость 1 → Сумма ← Кость 2.

Если вы не скажете мне сумму, а сообщите только число с первой кости — я не смогу узнать ничего о том, что выпало на второй кости. Однако если вы сообщите мне число на первой кости и общую сумму, то узнать число на второй кости не составит труда.

Определение того, являются ли разные куски информации зависимыми или независимыми друг от друга при заданной начальной информации, на самом деле является достаточно технической темой. Почитать об этом можно в книге Джуди Перл «Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference and Causality». (Если у вас есть время на книги, то рекомендую вам прочесть эту.)

Если вы знаете, как читать причинные графы, тогда вы взглянете на граф про кости и сразу же увидите:

$p(кость\space 1,кость 2) = p(кость\space 1)*p(кость\space 2)$

$p(кость\space 1,кость 2|сумма) ≠ p(кость\space 1|сумма)*p(кость\space 2|сумма)$

Если вы смотрите на верную диаграмму про дорожку, вы видите следующие факты:

$p(скользкая\space дорожка|ночь) ≠ p(скользкая\space дорожка)$

$p(скользкая\space дорожка|разбрызгиватель) ≠ p(скользкая\space дорожка)$

$p(скользкая\space дорожка|ночь, разбрызгиватель) = p(скользкая\space дорожка|разбрызгиватель)$

То есть, вероятность того, что дорожка скользкая, учитывая знание о разбрызгивателе и ночи, равно вероятности, которую мы присваиваем скользкой дорожке, если знаем только о разбрызгивателе. Знание о разбрызгивателе делает знание о ночи неактуальным касательно дорожки.

Это известно как «затмение», и критерий, который позволяет нам распознавать такие условные независимости в причинно-следственных графах, называется Д-разбиение.

Для случая с аргументом и авторитетом, причинно-следственная диаграмма будет выглядеть так:

Истина → Качество аргумента → Убеждение эксперта.

Если что-либо истинно, то неизбежно есть аргументы в его пользу, вследствие чего эксперты видят эти свидетельства и меняют свое мнение (в теории!)

Если мы видим, что эксперт верит во что-либо, мы предполагаем существование некоего абстрактного свидетельства (пусть даже мы не знаем какого именно), и из существования данного свидетельства мы выводим истинность позиции эксперта.

Однако если мы знаем значение узла «Качество аргумента», это Д-отделяет узел «Истина» от узла «Убеждение эксперта», блокируя все пути между ними, в соответствии с определенным техническим критерием для «блокирования путей», который кажется очевидным для такого случая. Даже без проверки точного распределения вероятностей, мы можем из графа понять следующее:

$p(истина|аргумент,эксперт) = p(истина|аргумент)$

Это не опровержение стандартной теории вероятности. Это просто более компактный путь выражения определенных вероятностных фактов. Вы можете выразить все это и через другие равенства и неравенства в любом подходящем распределении вероятностей — однако вам будет труднее визуально увидеть это. Авторитет и аргумент не являются двумя разными видами вероятности, как и разбрызгиватель не сделан из онтологически разного с солнечным светом вещества.

На практике вы никогда не можете полностью убрать влияние авторитета. Хороший авторитет более вероятно свидетельствует о версии, которую стоит принять во внимание; менее авторитетный источник может оказаться истинным с меньшей вероятностью, что и делает его аргументы менее надежными. Это не тот фактор, что вы можете убрать полностью путем выслушивания свидетельства, которое они учитывают.

Также очень трудно свести аргументы к чистой математике; и в ином случае, судя силу каждого шага можно полагаться на интуиции, которые вы не смогли бы повторить без тех же тридцати лет опыта.

Всегда есть неуничтожимая закономерность, что вы присвоите утверждению Э. Т. Джейнса о вероятности большую степень достоверности, нежели та, что будет вами присвоена аналогичному утверждению Элизера Юдковского. Нельзя считать, что пятьдесят дополнительных лет опыта не будут влиять.

Но на авторитет стоит полагаться только при прочих равных условиях, и он не выдерживает никакой конкуренции с сильными аргументами. Я нашел небольшую ошибку в одной из книг Джейнса — потому что алгебра важнее авторитета.

Перевод: 
Remlin
  • Короткая ссылка сюда: lesswrong.ru/92