Прочие материалы с lesswrong.com

Сюда попадают все материалы, которые не входят в книгу «Рациональность: от ИИ до Зомби». Также здесь могут встречаться материалы, которые в упомянутую книгу входят, но как часть «Цепочек», которые почти не переведены на русский.

Особо продвинутая эпистемология для начинающих

Подробное руководство по эпистемологии от Элиезера Юдковского. Включает практические приложения и задачи для читателя.

Автор: 
Элиезер Юдковский

Полезная идея истины

Элиезер Юдковский

Помню, как я однажды сдавала письменную работу по экзистенциализму. Преподаватель вернула мне её с оценкой «плохо». Она подчеркнула слова «истина» и «истинный» везде, где они встречались в эссе, примерно двадцать раз, и рядом с каждым поставила вопросительный знак. Она хотела узнать, что я понимаю под истиной.

— Даниэлла Эган

Я понимаю, что значит называть гипотезу элегантной, или фальсифицируемой, или соответствующей экспериментальным данным. Мне кажется, что называть убеждение «истинным», или «настоящим», или «действительным» — это всего лишь делать различие между утверждением, что вы во что-то верите, и утверждением, что вы во что-то очень-очень сильно верите.

— Дейл Каррико

Итак, что такое истина? Движущаяся толпа метафор, метонимий, антропоморфизмов, — короче, сумма человеческих отношений, которые были возвышены, перенесены и украшены поэзией и риторикой и после долгого употребления кажутся людям каноническими и обязательными.

— Фридрих Ницше

Задача на ложные убеждения «Салли–Анна» — это эксперимент, который используется, чтобы установить, понимает ли ребёнок разницу между убеждением и реальностью. Проводится он так:

  1. Ребёнок видит, как Салли прячет шарик в закрытую корзину, а Анна за этим наблюдает.
  2. Салли выходит из комнаты, а Анна вынимает шарик из корзины и прячет его в закрытую коробку.
  3. Анна выходит из комнаты, и Салли возвращается.
  4. Экспериментатор спрашивает ребёнка, где Салли будет искать шарик.

Дети до четырёх лет говорят, что Салли будет искать шарик в коробке, а более старшие дети — что в корзине.

Человеческие дети, начиная с возраста (обычно) в четыре года, впервые начинают понимать, что это значит, когда убеждения утрачивают связь с реальностью. Трёхлетний ребёнок моделирует только то, где находится шарик. Четырёхлетний ребёнок, начиная вырабатывать теорию сознания, отдельно моделирует, где находится шарик, и отдельно — где находится шарик по убеждению Салли, и может заметить, когда эти понятия конфликтуют — когда у Салли есть ложное убеждение.

Любое осмысленное убеждение имеет условие истинности, то есть реальность может каким-то образом быть такой, чтобы это убеждение было истинным или наоборот, ложным. Если мозг Салли содержит мысленный образ шарика в корзине, то в реальности шарик действительно может лежать в корзине — и в этом случае убеждение Салли называется «истинным», поскольку реальность удовлетворяет его условию истинности. Либо же возможно, что Анна вынула шарик и спрятала его в коробке, и в этом случае убеждение Салли называется «ложным», поскольку реальность не удовлетворяет его условию истинности.

Математик Альфред Тарский однажды описал понятие «истины» как бесконечную серию условий истинности:

  • Предложение «снег белый» истинно тогда и только тогда, когда снег белый.
  • Предложение «небо голубое» истинно тогда и только тогда, когда небо голубое.

Теперь кажется, что различие тут тривиально: зачем вообще говорить о предложениях, если предложение выглядит настолько похожим на реальность, когда и предложение, и реальность описаны на одном и том же языке?

Но когда мы оглядываемся на задачу «Салли–Анна», это различие становится куда яснее: убеждение Салли закодировано конфигурацией нейронов и нейронных путей в мозгу Салли, во влажной и чрезвычайно сложной органической ткани массой в килограмм с третью, находящейся внутри черепа Салли. Сам же шарик — это маленькая пластиковая сфера, которая перемещается между корзиной и коробкой. Сравнивать убеждение Салли с шариком — значит сравнивать совершенно разные вещи.

Тогда зачем вообще говорить об абстрактных «предложениях», а не об убеждениях, закодированных нейронами? Может быть так, что Салли и Фред верят «в одно и то же», то есть их мозги содержат внутренние модели шарика в корзине — то есть оба утверждения, каждое в своём мозге, имеют одинаковое условие истинности. В этом случае можно абстрагировать то, что эти убеждения имеют между собой общего, то есть общее условие истинности, в виде предложения или утверждения, которое мы считаем истинным или ложным отдельно от каких-либо верящих в него мозгов.

Некоторые мыслители выражают панику по поводу того, что любое суждение об истине — любое сравнение убеждения с реальностью — является частью чьего-то мышления, и, казалось бы, всего лишь сравнивает чужое убеждение со своим собственным:

То есть получается, что все эти разговоры об истине — это всего лишь сравнение чужих убеждений со своими и попытка установить свой авторитет? Получается, что слово «истина» — всего лишь оружие в борьбе за власть?

Мало того, мы даже не можем напрямую сравнить чужие убеждения с своими собственными. Мы можем только сравнить, внутри себя, наше убеждение о чьём-то чужом убеждении с нашим собственным убеждением — сравнить нашу карту их карты с нашей картой территории.

Аналогично получается, что когда мы говорим о наших собственных убеждениях, что они «истинны», это означает, что мы сравниваем свою карту своей карты со своей картой территории. Обычно люди не ошибаются в своём представлении о том, во что они верят. Хотя из этого правила есть определённые исключения, обычно карта карты верна, то есть люди обычно имеют верные убеждения о том, какие убеждения они имеют:

Следовательно, сказать «Я считаю, что небо голубое, и это верно!» — обычно значит выразить ту же информацию, которую выражают предложения «Я считаю, что небо голубое» или просто «Небо голубое», то есть информацию о том, что ваша мысленная модель мира содержит голубое небо.

Подумайте над вопросом:

Если это так, то получается, что постмодернисты правы? Получается, что все эти рассуждения об «истине» — это всего лишь попытка установить приоритет ваших собственных убеждений над чужими, и нет способа сравнить убеждение с самой реальностью, а не с содержимым чьей-то головы?

Здесь и далее я буду вставлять вопросы, над которыми читателям предлагается найти ответ самостоятельно, прежде чем двигаться дальше. Это моя несколько неуклюжая попытка отразить результаты исследований, показавших, что читатели значительно чаще запоминают какой-то факт или решение проблемы, если сначала пытаются решить проблему сами, прежде чем прочитать решение. Удастся вам решить проблему или нет, главное — попытаться и только затем читать дальше. Здесь отражена также проблема, существующая по мнению Майкла Вассара: поскольку статьи такого рода часто кажутся очевидными после прочтения, читателям зачастую сложно визуализировать разницу между «до» и «после», и для целей обучения эту разницу полезно себе представлять. Поэтому, пожалуйста, попытайтесь сначала высказать свой собственный ответ на вопрос — в идеале прошепчите его себе, либо двигайте губами, представляя, как вы его проговариваете, чтобы сделать его явным и доступным для вашей памяти — прежде чем продолжать. Попытайтесь также осознанно заметить разницу между вашим ответом и ответом, приведённым в статье, включая любые дополнительные или отсутствующие детали, и не пытайтесь увеличить или уменьшить это различие.

Ответ:

Ответ, который я дал Дейлу Каррико — который заявил мне, что знает, что означает фальсифицируемость убеждения, но не знает, что означает его истинность, — состоял в том, что мои убеждения определяют мои экспериментальные предсказания, но только реальность может определять мои экспериментальные результаты. Если я очень сильно верю в то, что я умею летать, то это убеждение может сподвигнуть меня сделать шаг с обрыва, ожидая, что он безопасен; но только истинность этого убеждения может спасти меня от смертельного падения.

Поскольку мои ожидания иногда конфликтуют с тем, что я затем вижу и ощущаю происходящим вокруг меня, мне нужны разные названия для того, что определяет мои экспериментальные предсказания, и для того, что определяет мои экспериментальные результаты. Первое я называю «убеждениями», а второе — «реальностью».

Вы не получите прямого столкновения между убеждениями и реальностью — или между чужими убеждениями и реальностью — если будете сидеть в комнате с закрытыми глазами. Но если вы откроете глаза, ситуация изменится!

Давайте проследим за тем, как ваш мозг получает информацию о том, что ваши шнурки развязаны:

  • Фотон покидает Солнце и летит к Земле через её атмосферу.
  • Ваш шнурок поглощает и снова испускает этот фотон.
  • Отражённый фотон проходит через зрачок вашего глаза и направляется на сетчатку.
  • Фотон падает на клетку-палочку или клетку-колбочку, или, ещё точнее, он падает на фоторецептор, форму витамина А, известную как ретиналь. Эта молекула затем изменяет свою форму, вращаясь вокруг двойной связи, благодаря поглощению энергии фотона. Связанный белок под названием опсин в ответ претерпевает смену конформации, и это возмущение далее распространяется на тело нервной клетки, которая наполняет энергией протон и увеличивает его поляризацию.
  • Постепенное изменение поляризации распространяется на биполярную клетку и затем клетку ганглия. Если поляризация клетки ганглия превышает определённую границу, клетка испускает нервный импульс — распространяющееся электрохимическое явление поляризации-деполяризации, которое проходит по мозгу со скоростью от 1 до 100 метров в секунду. Таким образом, свет из внешнего мира преобразуется в информацию внутри нервной системы, совместимую с субстратом остальных мыслей.
  • Нервный сигнал подвергается предварительной обработке другими нейронами в сетчатке, затем в латеральном коленчатом теле в середине мозга, после чего в зрительной коре, находящейся в задней части головы, восстанавливается уменьшенное изображение окружающего мира — изображение, закодированное в частотах испускания сигналов нейронами, составляющими зрительную кору. (Это изображение искажено, поскольку центр поля зрения обрабатывается со значительно большей степенью детализации, чем его края, — то есть распределяется между большим числом нейронов и большей площадью коры.)
  • Информация из зрительной коры затем направляется в височные доли, которые отвечают за распознавание объектов.
  • Ваш мозг распознаёт форму развязанного шнурка.

Так ваш мозг обновляет свою картину мира, включая в неё тот факт, что ваши шнурки развязаны. Даже если до этого он ожидал увидеть их связанными! У вашего мозга нет никакой причины не обновлять свою картину мира, если только в этом не замешана политика. Когда фотоны, направляющиеся в сторону глаза, преобразуются в нервные сигналы, они принимают форму, совместимую с другой содержащейся в мозгу информацией, и могут сравниваться с предыдущими убеждениями.

Убеждения и реальность взаимодействуют постоянно. Если бы мозг и его окружение никогда не соприкасались, нам не нужны были бы ни глаза, ни руки, и мозг мог бы иметь намного более простое строение. Организмам вообще не нужны были бы мозги.

Хорошо, убеждения и реальность — это разные сущности, которые пересекаются и взаимодействуют. Но из того, что нам нужны отдельные понятия для «убеждений» и «реальности», ещё не следует потребность в понятии «истины», то есть сравнения между ними. Возможно, мы могли бы говорить отдельно (а) о представлениях некоего разумного существа о том, что небо голубое, и (б) о самом небе. Вместо того, чтобы говорить «Джейн считает, что небо голубое, и она права», мы могли бы сказать «Джейн считает, что небо голубое; кроме того, небо голубое» и тем самым выразить ту же информацию (а) о наших убеждениях относительно неба и (б) о наших убеждениях относительно убеждений Джейн. Мы всегда могли бы, применяя схему Тарского «Предложение “X“ истинно тогда и только тогда, когда X», заменить любое утверждение об истинном предложении утверждением о его условии истинности, о соответствующем состоянии реальности (неба или чего-нибудь ещё). Так мы могли бы вообще избежать этого надоедливого слова «истина», о котором философы ведут бесконечные споры и которым злоупотребляют разные раздражающие личности.

Пусть есть некое разумное существо — для определённости пусть это будет искусственный интеллект, который занимается своей работой в одиночку и которому никогда не требовалось ни с кем спорить о политике. ИИ знает, что «Моя модель полагает с вероятностью 90%, что небо голубое»; он уверен в том, что эта вероятность — это именно то предложение, которое сохранено в его оперативной памяти. Отдельно ИИ моделирует, что «Вероятность того, что мои оптические датчики обнаружат за окном голубой цвет, равна 99% при условии, что небо голубое», и не путает это утверждение с утверждением о том, что его оптические датчики обнаружат голубой цвет, когда он полагает, что небо голубое. Значит, этот ИИ определённо может отличать карту от территории; он знает, что разные состояния его оперативной памяти имеют последствия и причинно-следственные связи, отличные от тех, какими обладают разные состояния неба.

Но может ли этому ИИ понадобиться общее понятие истины — может ли ему понадобиться придумать слово «истина»? Почему, если бы у него было это понятие, он мог бы работать лучше?

Подумайте над вопросом: Если мы имеем дело с искусственным интеллектом, которому не нужно ни с кем спорить о политике, может ли ему когда-нибудь понадобиться слово или понятие «истина»?

Ответ: Абстрактное понятие «истины» — общая идея о соответствии карты и территории — нужно, чтобы выразить такие идеи, как:

  • Обобщение по всем возможным картам и городам: если ваша карта города точна, то более вероятно, что навигация по этой карте вовремя доставит вас в аэропорт.
  • Чтобы начертить верную карту города, кто-то должен выйти на улицу и посмотреть на здания. Вы не сможете составить точную карту, сидя в комнате с закрытыми глазами и пытаясь представить, каким бы вы хотели видеть город.
  • Истинные убеждения с большей вероятностью делают правильные экспериментальные предсказания, чем ложные убеждения; поэтому, если мы будем больше доверять гипотезам, делающим правильные экспериментальные предсказания, наша модель реальности со временем будет становиться всё более верной.

В этом и состоит главное преимущество рассуждений и размышлений об «истине»: мы можем обобщать правила составления карт, соответствующих территориям, и извлекать уроки, которые можно распространять на другие области, а не только на цвет того или иного неба.

Как и всегда, тотальная философская паника оказалась в данном случае необоснованной. Но наша внутренняя оценка «истины» как сравнения между картой карты и картой реальности есть ключевая практическая проблема: в этой схеме мозгу очень просто принять за истину абсолютно бессмысленное предложение.

Пусть некий профессор литературы рассказывает на лекции, что знаменитые писатели Кэрол, Дэнни и Элейн являются «пост-утопистами», что следует из того, что их произведения имеют признаки «колониального отчуждения». Для большинства студентов типичным результатом будет то, что в аналоги ассоциативных массивов в их мозгах к объектам «Кэрол», «Дэнни» и «Элейн» будет добавлено свойство «пост-утопист». Когда в последующей контрольной работе встретится вопрос «Приведите пример писателя — пост-утописта», студент напишет «Элейн». Что, если студент напишет «Я думаю, что Элейн — не пост-утопист»? Тогда профессор смоделирует…

…и пометит ответ как неправильный.

В конце концов…

  • Предложение «Элейн — пост-утопист» истинно тогда и только тогда, когда Элейн — пост-утопист.

…правильно?

Может, конечно, быть и так, что этот термин действительно что-то означает (хотя я сам его выдумал). Может даже быть и так, что, хотя профессор не может дать хорошего и явного ответа на вопрос «А что вообще такое пост-утопизм?», тем не менее можно показать многим разным профессорам литературы новые произведения неизвестных им авторов, и все они независимо придут к одному и тому же ответу, из чего последует, что какое-то доступное чувствам свойство текста они явно обнаруживают. Мы не всегда знаем, как работают наши мозги, и мы не всегда знаем, что мы видим, и небо было голубым задолго до того, как появилось слово «голубой»; чтобы часть картины мира в вашем мозгу имела смысл, не требуется, чтобы вы могли объяснить её словами.

С другой стороны, может быть и так, что профессор узнал о «колониальном отчуждении», зазубрив то, что ему в своё время говорил его профессор. Может быть так, что единственный человек, чей мозг когда-то вкладывал в эту фразу реальный смысл, уже умер. Так что к тому времени, как студенты узнают, что слово «пост-утопист» — это пароль, который требуется называть в ответ на запрос «колониальное отчуждение», обе фразы стали не более чем словесными ответами. которые требуется заучивать, не более чем набором ответов для теста.

Эти две фразы не выглядят «оторванными» от реальности сами по себе, потому что они не оторваны друг от друга: пост-утопизм как будто имеет последствие в виде колониального отчуждения, а если вы спросите, что следует из колониального отчуждения, то это означает, что автор, скорее всего, пост-утопист. Но если вы очертите кругом эти два понятия, то обнаружите, что ни с чем больше они не связаны. Это плавающие убеждения, никак не связанные со всей остальной моделью. И тем не менее нет никакого внутреннего тревожного сигнала, который бы звучал, когда такое происходит. Точно так же, как «неправота ощущается как правота» — так же, как обладание ложным убеждением ощущается как обладание истинным убеждением, по крайней мере до проведения эксперимента, — так и бессмысленное убеждение может ощущаться как осмысленное.

Группы, обладающие совершенно бессмысленными убеждениями, могут даже враждовать. Если кто-то спросит «Является ли Элейн пост-утопистом?» и одна группа закричит «Да!», а вторая — «Нет!», они могут подраться просто из-за разных кричалок: для начала вражды необязательно, чтобы слова что-то значили. С тем же успехом может начаться драка между группой, кричащей «Ку!», и группой, кричащей «Кю!» Говоря более общо, важно различать видимые последствия высказанного убеждения, содержащегося в мозгу профессора (студенты должны написать на контрольной то, что нужно, иначе профессор посчитает их ответ неверным) и видимые последствия состояния реальности, не оформленного словесно (то есть состояния территории, при котором Элейн действительно является пост-утопистом).

Одним классическим ответом на эту проблему был верификационизм, который считал, что предложение «Элейн — пост-утопист» является бессмысленным, если оно не говорит нам, какие сенсорные ощущения мы ожидаем испытать, если это предложение истинно, и как эти ощущения будут отличаться в случае, когда предложение ложно.

Но теперь представьте, что я направляю фотон в пустоту между галактиками, и он улетает далеко в глубины космоса. В расширяющейся Вселенной этот фотон в конце концов пересечёт космологический горизонт, за которым, даже если фотон упадёт на зеркало, которое отразит его обратно в направлении Земли, он никогда не вернётся сюда, потому что за это время Вселенная расширится слишком быстро. Следовательно, после того, как фотон пересечёт определённую черту, у утверждения «Фотон продолжает существовать вместо того, чтобы исчезнуть» не будет совершенно никаких экспериментальных последствий.

И тем не менее мне кажется — и, надеюсь, вам тоже, — что утверждение «Фотон внезапно исчезает из мироздания сразу же, как только у нас пропадает возможность его когда-либо увидеть, и тем самым нарушает закон сохранения энергии и ведёт себя не так, как все видимые нам фотоны» ложно, а утверждение «Фотон продолжает существовать, улетая в никуда» истинно. И подобные вопросы могут иметь важные последствия в контексте принятия решений: представьте, что мы думаем о снаряжении околосветового корабля, летящего как можно дальше, так что он пересечёт космологический горизонт до того, как он замедлится, чтобы колонизировать какое-нибудь далёкое сверхскопление галактик. Если бы мы думали, что корабль исчезнет из Вселенной, как только пересечёт космологический горизонт, мы бы не стали и рассматривать возможность отправить его в полёт.

Спрашивать себя об ощутимых последствиях наших убеждений полезно и мудро, но они не подходят на роль фундаментального определения осмысленных утверждений. Это отличная подсказка, сигнализирующая о том, что что-то может быть оторванным от реальности «плавающим убеждением», но не абсолютное правило.

Можно попробовать ответить, что для того, чтобы утверждение было осмысленным, реальность должна иметь возможность быть такой, чтобы это утверждение могло быть истинным или ложным; а поскольку Вселенная состоит из атомов, должна существовать такая конфигурация атомов Вселенной, чтобы это утверждение было истинным или ложным. Например, чтобы утверждение «Я в Париже» было истинным, нужно переместить в Париж составляющие меня атомы. Литературный критик может заявлять, что Элейн имеет свойство, называемое пост-утопизмом, но нет никакого способа перевести это заявление в способ перераспределить атомы Вселенной так, чтобы сделать его истинным или же ложным; следовательно, у него нет условия истинности, то есть оно бессмысленно.

И действительно, существуют такие заявления, при которых, если вы остановитесь и подумаете: «Как можно перестроить Вселенную так, чтобы это было истинным или ложным?», то вы внезапно осознаете, что вы не так хорошо понимаете условие истинности этого заявления, как вы думали. Например, «Страдание закаляет дух» или «Все экономические кризисы — результат плохой денежной политики». Эти утверждения необязательно бессмысленны, но их гораздо проще высказать, чем представить себе мир, в котором они истинны или ложны. Точно так же, как и вопрос об ощутимых последствиях, вопрос о способе конфигурации Вселенной является важным индикатором осмысленности или бессмысленности.

Но если бы вы сказали, что для осмысленности утверждения должна существовать конфигурация атомов, делающая его истинным или ложным…

Тогда такая теория, как квантовая механика, изначально была бы бессмысленной, поскольку нет никакого способа распределить атомы так, чтобы сделать её истинной.

И наше открытие, что Вселенная состоит не из атомов, а из квантовых полей, обратило бы все осмысленные утверждения во всём мире в бессмысленные — потому что оказалось бы, что нет никаких атомов, которые можно было бы перераспределить, чтобы выполнить их условия истинности.

Подумайте над вопросом: Какое правило могло бы ограничить наши убеждения только теми, которые могут иметь смысл, не отсекая при этом раньше времени ничего, что в принципе может быть истинным?

Перевод: 
Майя Эверетт
Оцените качество перевода: 
Средняя оценка: 3.5 (106 votes)

Рациональность как привязанность к алгоритмам познания

Элиезер Юдковский

Существует распространённая ошибка (которая меня довольно сильно раздражает), когда человек начинает вещать о важности «Истины». Обычно при этом подразумевается, что Истина — это нечто возвышенное, а не какие-нибудь скучные мирские истины о гравитации, радугах или о том, что ваш коллега сказал о вашем начальнике.

Поэтому довольно полезно упражняться в том, чтобы убирать слово «истина» из всех предложений, где оно появляется. (Замечу, что это один из видов рационалистского табуирования.) Например, вместо утверждения «Я считаю, что небо синее, и это истина!» можно просто сказать «Небо синее». Собеседник при этом получит совершенно одинаковую информацию о том, какой цвет неба с вашей точки зрения. А если утверждения «Я считаю, что демократы выиграют выборы» и «Демократы выиграют выборы» ощущаются для вас по-разному, то это важный сигнал о расхождении ваших сознательных и интуитивных убеждений.

Попробуйте попрактиковаться на следующих утверждениях:

  • Я считаю, что Джесс пытается лишь выиграть спор.
  • Истина в том, что ты невнимателен.
  • Я считаю, что у меня всё наладится.
  • На самом деле учителя очень заботятся об учениках.

Если «истина» определяется как бесконечное семейство предложений вида «Предложение „небо синее“ истинно тогда и только тогда, когда небо синее», то зачем нам вообще рассуждать об «истине»?

Мы не сможем убрать «истину» из предложения «Истинные убеждения с большей вероятностью позволяют делать предсказания, подтверждаемые экспериментом». Это предложение говорит о свойствах связи между картой и территорией. Словосочетание «истинные убеждения» можно заменить на «точная карта», однако это будет отсылкой к тому же понятию.

Слово «истина» можно удалить из большинства предложений лишь потому, что эти предложения не говорят ничего о связи между картой и территорией.

Теперь зададимся вопросом: когда необходимо использовать слово «рациональный»?

Как и в случае слова «истина», существует очень мало предложений, в которых действительно необходимо слово «рациональный». Рассмотрим следующие упрощения. Ни при каком из них практически не происходит потери информации.

  • «Рационально считать, что небо синее».
    -> «Я думаю, что небо синее».
    -> «Небо синее».

  • «Рациональное питание: почему стоит придерживаться палеодиеты»
    -> «Почему вы должны считать, что палеодиета приведёт к самым лучшим последствиям для здоровья».
    -> «Мне нравится палеодиета».

Практически всегда, когда люди объявляют что-то рациональным, можно без потери смысла заменить это слово словом «оптимальный». В тех случаях, когда речь идёт об убеждениях, а не стратегиях, — словами «истинный» или чем-то вроде «я считаю, что это так».

Попробуйте попрактиковаться на следующих утверждениях:

  • «Рационально учить детей дифференцировать и интегрировать».
  • «По-моему, это самая рациональная книга на свете».
  • «Рационально верить в гравитацию».

Подумайте над вопросом: В каких редких случаях из предложения нельзя убрать слово «рациональный»?

Ответ: Слово «рациональный» нам нужно, чтобы разговаривать о когнитивных алгоритмах или мыслительных процессах, обладающих свойствами «систематически улучшают связь между картой и территорией» (эпистемическая рациональность) или «систематически обеспечивают лучшие пути к цели» (инструментальная рациональность).

Например:

»(Эпистемически) рационально придерживаться гипотез, которые позволяют делать предсказания лучше».

или

«Цепляться за невозвратные затраты (инструментально) иррационально».

Из этих предложений нельзя убрать понятие рациональности без потери смысла. Можно найти способ перефразировать их без использования слова «рационально», однако придётся передавать то же самое понятие другими словами. Например:

«Если вы больше придерживаетесь гипотез, которые позволяют делать предсказания лучше, то ваша карта со временем лучше соответствует реальности».

или

«Если вы цепляетесь за невозвратные потери, вам это будет мешать достигать своих целей».

Слово «рационально» подходит для разговора о когнитивных алгоритмах, которые систематически улучшают связь карты и территории или помогают достижению целей.

Аналогично, рационалист — это не просто человек, который уважает Истину.

Слишком многие уважают Истину.

Некоторые уважают Истину о том, что правительство США заложило взрывчатку во Всемирный торговый центр, Истину о том, что судьбу человека решают звёзды (забавно, но если всё пойдёт как надо, правдой окажется противоположное утверждение), Истину о том, что глобальное потепление — это ложь, и так далее.

Рационалист — это человек, который уважает процессы поиска истины. Рационалисты — это люди, которые демонстрируют настоящее любопытство, даже если это любопытство касается давно всем понятных вопросов, вроде взрывчатки во Всемирном торговом центре. Ведь истинное любопытство — это часть излюбленного алгоритма и уважаемого процесса. Рационалисты уважают Стюарта Хамероффа за попытки проверить, действительно ли в нейронах могут происходить квантовые вычисления, пусть даже эта идея априори кажется крайне маловероятной и появилась как следствие ужасного гёделевского аргумента о том, что мозг не может быть механизмом. Однако Хамерофф попытался проверить свои странные убеждения экспериментально. И если бы «странные» убеждения никогда не проверялись экспериментально, человечество до сих пор обитало бы в саванне.

Или вспомним полемику о том, как CSICOP (Комитет по научному расследованию заявлений о паранормальных явлениях) разбирался с так называемым эффектом Марса. Эта полемика привела к тому, что CSICOP покинул его основатель, Деннис Роулинз. Действительно ли положение планеты Марс в небе во время часа рождения человека влияет на то, станет ли он знаменитым атлетом? Я скажу «нет», пусть даже кто-нибудь со мной не согласится. И если вы уважаете лишь Истину, то совершенно не важно, что CSICOP в процессе повысил требования к астрологу Гоклену — в смысле, объявил об эксперименте, а затем придумал новые причины отвергнуть результаты Гоклена, после того, как они оказались положительными. Выводы астролога почти наверняка неверны, конечно же, эти выводы отвергли, Истина восторжествовала.

Однако рационалиста волнуют утверждения, которые нарушают процессы рациональности. Байесианец в ситуации, похожей на описанную чуть-чуть сместил бы свои убеждения в сторону астрологии, однако априорные шансы против астрологии слишком велики. В большей степени байесианец сместил бы свои убеждения в сторону того, что Гоклен случайно наткнулся на какое-то явление, которое стоит исследовать подробнее. И уж точно он не стал бы требовать эксперимента, а затем игнорировать результаты или, когда результаты оказались не такими, как он ожидал, придумывать оправдания, почему эксперимент был неправильным. Такое поведение систематически плохо влияет на поиски истины. А рационалист ценит не просто красоту Истины, но красоту процессов и алгоритмов познания, позволяющих её находить.

У рационалистов получается вести необычайно продуктивные и дружественные разговоры (по крайней мере, пока всё идёт нормально) не потому, что все участники очень сильно уважают то, что они считают Верным или Оптимальным. В обычных условиях люди яростно спорят не потому, что знают правду, но не уважают её. Разговоры рационалистов (потенциально) более продуктивны в той степени, в какой все участники уважают процесс и соглашаются, каким именно этот процесс должен быть - что достигается явным изучением предметов вроде когнитивной психологии и теории вероятностей. Когда Анна говорит мне: «Меня беспокоит, что, судя по всему, тебе не слишком любопытен этот вопрос», речь идёт о состоянии ума, которое мы оба считаем важным. И я понимаю, что когда уважаемая мной рационалистка говорит мне, что я должен проявить любопытство, я должен задуматься, оценить свой уровень любопытства и попытаться его увеличить. Это часть рационалистского процесса, и она находится на мета-уровне относительно конкретного обсуждаемого вопроса.

Нужно ли любить рациональность, чтобы её использовать? Я могу представить мир, в котором миллионы людей учатся в школе правильно использовать Искусство, но лишь горстка любит его настолько, что пытается его развивать, а все остальных Искусство интересует лишь в связи с практическими результатами. Точно также я могу представить компетентного прикладного математика, который работает на инвестиционный фонд исключительно ради денег - он никогда не любил ни математику, ни программирование, ни оптимизацию. Я могу представить компетентного музыканта, который не испытывает особой любви к композиции или наслаждения от музыки, и которого заботит лишь продажа альбомов и поклонницы. Если какое-то явление можно вообразить, это ещё не означает, что его вероятно встретить в реальной жизни… Однако, если где-то существуют множество детей, которые учатся играть на фортепьяно, хотя и не любят это занятие, «музыкантом» будет считаться тот, кто играет необычайно хорошо, а не просто нормально.

Однако пока в нашем мире, где Искусство ещё ни навязывается насильно школьникам, ни приносит явного вознаграждения на обыденном карьерном пути, почти все владеющие какими-то рациональными навыками — это люди, которых захватывает Искусство само по себе. И это — возможно, тут стоит сказать «увы» — многое объясняет, как о рационалистских сообществах, так и о мире.

Перевод: 
Alaric
Оцените качество перевода: 
Средняя оценка: 4.1 (12 votes)

Навык: Карта — не территория

Элиезер Юдковский

Самая ранняя известная мне рационалистская фантастика — это серия «Нуль-А» Альфреда ван Вогта. (Я знаю всего два примера рационалистской фантастики, не произошедшей от «ГПиМРМ», и второй — это «Праща Давида» Марка Стиглера.) У главного героя книг ван Вогта, Гилберта Госсейна, множество невоспроизводимых способностей: хотя они якобы относятся к мыслительным, вы не в состоянии им научиться. Например, благодаря своим тренировкам, герой умеет использовать всю свою силу в чрезвычайных ситуациях. Главный же рационалистский навык, которому, читая о приключениях Госсейна, научиться всё-таки можно, заключён в его девизе:

Карта — не территория.

Меня до сих пор иногда поражает мысль, что эту поговорку пришлось придумать: это сделал парень по фамилии Коржибски, причём лишь в двадцатом веке. Я читал книги ван Вогта в раннем детстве, поэтому для меня эта фраза звучит как аксиома, без которой существовать невозможно.

Однако поскольку Байесовский заговор вступает во вторую стадию своего развития, мы должны приучиться переводить просто красивые мысли в техники, которые можно применить на практике. Начнём.

Подумайте над вопросом. При каких обстоятельствах полезно осознанно думать о различиях между картой и территорией, то есть осознанно представлять мысленный пузырь, содержащий убеждение, и реальность вокруг него вместо того, чтобы с помощью карты напрямую размышлять о реальности? Как именно это поможет и в каких задачах?

Навык 1. Вообразить собственную неправоту.

В книге ван Вогта Гилберт Госсейн вспоминает о поговорке про карту и территорию, когда не уверен в каких-то убеждениях: «Ты так считаешь, но мир не обязательно так устроен». Это высказывание может казаться базовой истиной, но именно с него часто начинается обучение начинающих рационалистов. Они прыгают из мира, где небо просто синее, трава просто зелёная, а люди из Другой Политической Партии просто одержимы злобными демонами, в мир, где, возможно, реальность не совпадает с этими убеждениями и способна когда-нибудь вас удивить. В случае «трава зелёная» этому можно присвоить достаточно низкую вероятность, однако в мире, где территория отделена от карты по крайней мере допустимо, что однажды реальность не согласится с вами. Некоторые люди способны практиковать этот навык. Например, в случаях, когда им хочется полностью отвергнуть вероятность, что, возможно, они ошибаются, эти люди мысленно представляют себя сначала в мире, где их убеждения верны, а потом в мире, где их убеждения неверны. Убеждения относительно мотивов других людей — например, «Он меня ненавидит!» — судя по всему, лучше перефразировать как: «Я считаю, что он меня ненавидит» или «Я предполагаю, что он меня ненавидит». Результат иногда получается гораздо лучше.

По тем же причинам часто помогает рассуждение на языке вероятностей. Если вероятность Х — 75%, значит вероятность не-Х — 25%. Таким образом вы автоматически рассматриваете больше одного мира. Присваивание вероятностей также неминуемо напоминает, что сейчас вы работаете лишь со знаниями о мире. Ведь вероятностными могут быть лишь убеждения. Реальность всегда либо одна, либо другая.

Навык 2. Рассмотреть убеждение с другой точки зрения.

Если мы действительно в чём-то убеждены, нам кажется, что мир такой и есть. Если смотреть изнутри, другим людям кажется, что они живут в другом мире, не в таком же, как вы. Другие не соглашаются с вами не потому, что они беcпричинно упрямы, они не соглашаются, потому что ощущают мир по-другому, пусть даже вы и находитесь в одной и той же реальности.

Книга «Гарри Поттер и методы рационального мышления» написана, в том числе, с использованием этого навыка. Когда я создавал того или иного персонажа, например, Драко Малфоя, я не просто представлял, как он думает, я представлял окружающий его субъективный мир, который вращается вокруг него. Всё остальное считалось важным (или вообще принималось во внимание) лишь в зависимости от того, насколько оно важно для этого персонажа. Большинство книг показывают лишь одну точку зрения. Часто, даже если в книге представлено несколько точек зрения, второстепенные персонажи живут во вселенной главного героя и думают в основном о том, что важно главному герою. В «ГПиМРМ», когда вы встаёте на место Драко Малфоя, вас выдёргивают в субъективную вселенную Драко Малфоя, где у Пожирателей Смерти есть веские причины для их действий, а Дамблдор — внешнее беспричинное зло. Поскольку я не планировал писать постмодернистское произведение, персонажи всё же определённо жили в одной и той же реальности и оправдания действий Пожирателей Смерти убедительно звучали лишь для Драко — я не старался их как-то улучшить, чтобы убедить читателя. Речь не идёт о том, что каждый персонаж в буквальном смысле живёт в своей вселенной, и не о том, что все стороны моральны в равной степени, что бы они не делали. Речь о том, что разные элементы реальности для разных персонажей имеют разный смысл и разное значение.

Джошуа Грин однажды заметил (кажется, это было в его статье «Ужасная, кошмарная, нехорошая, очень плохая мораль»), что дискуссии о политике почти всегда выглядят как чтение нотаций непослушным детям, отказывающимся признавать очевидные истины. Отмечу, что если ошибающийся не в состоянии проверить свои убеждения экспериментально, то он может внутренне ощущать себя также, как и в тех случаях, когда он прав.

Навык 3. Вы с меньшей вероятностью примете анти-эпистемологию и подход «мотивированной нейтральности», утверждающие, что истины не существует.

Это навык избегания: он не позволяет принять решение о том, что именно делать, а лишь указывает на один из многих способов совершить ошибку. При обучении стоит уделять меньше внимания подобным навыкам. Тем не менее, если вы уже потратили какое-то время на то, чтобы представить Салли и Анну с их разными убеждениями, а также как с их убеждениями соотносится положение мячика, вам легче не поддаться на чьи-то рассуждения об отсутствии объективной истины. Салли и Анна представляют мир по-разному, но реальность — настоящее положение мячика, — с которой сравниваются их убеждения, лишь одна, поэтому здесь нет «различных правд». Настоящее убеждение (в отличие от веры в убеждение) всегда ощущается как верное, и, да, действительно, у двух людей действительно могут быть разные ощущения истины, но ощущение истины — не территория.

Предположу, что для усвоения этого навыка стоит замечать, когда ты сталкиваешься с подобной анти-эпистемологией, и, возможно, представлять в ответ две фигуры в мысленных пузырях и их единое окружение. Впрочем, по-моему, большинству людей, которые понимают основную идею, не нужны дополнительные аргументы и тренировки, чтобы избежать описанной ошибки.

Навык 4. Принимать решения, рассуждая о последствиях для мира (метод Тарского, он же литания Тарского).

Предположим, вы размышляете, стоит ли стирать свои белые спортивные носки с тёмными вещами. Вы беспокоитесь, что носки могут покраситься, но, с другой стороны, вам очень не хочется запускать стиральную машину второй раз только из-за белых носок. Не исключено, что ваш мозг начнёт придумывать причины, почему вряд ли с вашими носками что-то произойдёт — например, скажет, что тут же нет совсем новых тёмных вещей. В таких случаях помогает литания:

Если на моих носках появятся пятна, я хочу верить, что на носках появятся пятна.
Если на моих носках не появятся пятна, я хочу верить, что на носках не появятся пятна.
Я не буду цепляться за веру, которую не хочу.

Чтобы ваш мозг прекратил убеждать сам себя, представьте, что вы уже в мире, где ваши носки в результате стирки потемнеют, или уже в мире, где с ними ничего не случится, и в обоих случаях вам лучше считать, что вы находитесь именно в том мире, в котором находитесь. Помогают мантры: «То, что может быть разрушено правдой, должно быть разрушено» и «Реальность — это то, что не исчезает, когда вы прекращаете в неё верить». Признание, что убеждение — это ещё не реальность, может помочь нам признать первичность реальности и либо перестать с ней спорить и принять её, либо проявить любопытство.

Анна Саламон и я обычно используем метод Тарского так: мы представляем мир, который нам не нравится или который отличается от наших убеждений, в нём себя, который верит в противоположное, и катастрофу, которая в результате последует. Например, представьте, что вы уже какое-то время едете на машине, вы до сих пор не доехали до своего отеля и начинаете беспокоиться, не пропустили ли вы нужный поворот. Если вы его всё-таки пропустили, вам придётся разворачиваться и ехать ещё 60 километров в противоположном направлении, а это очень неприятная мысль и ваш мозг изо всех сил пытается убедить себя, что вы не заблудились. Анна и я в этом случае представим мир, где мы заблудились, но продолжаем ехать вперёд.

Замечу, что это всего лишь одна из ячеек в матрице 2 х 2:

На самом деле вы едете в нужном направлении На самом деле вы заблудились
Вы считаете, что едете в нужном направлении Не надо ничего менять: просто продолжаете движение и вы приезжаете в отель на свою конференцию Просто продолжаете движение и в какой-то момент заезжаете на своей арендованной машине в море
Вы считаете, что вы заблудились Увы! Вы тратите целых пять минут своей жизни на ненужные вам распросы Вы тратите пять минут на расспросы, разворачиваетесь и едете 40 минут в противоположном направлении

Майкл «Валентайн» Смит говорит, что он применяет обсуждаемый навык, представляя все четыре ячейки по очереди. Практика позволяет делать это очень быстро, и он считает, что представлять все варианты полезно.

Перевод: 
Alaric
Оцените качество перевода: 
Средняя оценка: 4.3 (12 votes)

Рациональность как боевое искусство

Элиезер Юдковский

Мне очень нравится метафора, что рациональность — это боевое искусство для разума. Чтобы изучать боевые искусства, не обязательны огромные мускулы. Безусловно, люди спортивного телосложения чаще занимаются боевыми искусствами, однако боевые искусства можно изучать по самым разным причинам, в том числе и ради удовольствия. Если у вас есть рука, и все сухожилия и мускулы на месте, вы можете научиться сжимать кулак.

Аналогично, если у вас есть мозг, и с корой больших полушарий всё в порядке, вы можете научиться правильно его использовать. Если у вас есть способности, наверное, вы научитесь быстрее. Однако, искусство рациональности — это не про скорость обучения. Искусство рациональности — это тренировки машины, которая есть в голове у каждого из нас. Наши мозги склонны совершать систематические ошибки (как пример такой ошибки можно привести пренебрежение масштабом). Рациональность предназначена, чтобы исправлять такие ошибки или находить способы их обойти.

Увы, наш разум подчиняется нашей воле гораздо хуже, чем руки. По меркам эволюции способность управлять мускулами у нас появилась очень давно, способность же рассуждать о собственном процессе рассуждения — гораздо более свежее изобретение. Таким образом не стоит удивляться, что применять мускулы гораздо проще, чем применять мозги. Однако вряд ли разумно пренебрегать тренировками только потому, что они сложные. Люди захватили Землю не благодаря большим мускулам.

Если вы живёте в городе, наверняка у вас где-нибудь поблизости есть школа боевых искусств. Почему нет таких школ, где обучают рациональности?

Наверное, одна из причин заключается в том, что в рациональности сложно определить наличие навыков. Чтобы перейти на следующий уровень в тхэквондо, обычно нужно сломать доску определённой толщины. Если у вас получилось, все наблюдатели аплодируют. Если у вас не получилось, ваш учитель смотрит, как вы сжимаете кулак, и проверяет, правильно ли вы это делаете. Если неправильно, учитель вытягивает руку, сжимает кулак правильно и вы можете понаблюдать, как надо делать.

В школах боевых искусств техники владения мускулами вырабатывались и оттачивались поколениями. Передать техники рациональности гораздо сложнее, даже если ученик очень-очень хочет их освоить.

Совсем недавно — меньше полувека назад — люди узнали довольно много нового о человеческой рациональности. Например, экспериментальная психология рассказала об эвристиках и искажениях — наверное, это самое важное знание. Также появилась байесианская систематизация теории вероятностей и статистики, произошли новые открытия в эволюционной и социальной психологии. Мы получили эмпирические данные о человеческой психологии, у нас есть теория вероятностей, чтобы интерпретировать результаты экспериментов, и теория эволюции, чтобы объяснять результаты. Всё это дало нам новые способы заглянуть в наш собственный разум. С помощью этих наук мы теперь способны более чётко разглядеть «мускулы» наших мозгов и «пальцы» наших мыслей. У нас появился общий словарь для описания задач и их решений. Человечество может наконец построить боевое искусство для разума: придумать техники личной рациональности, делиться ими, систематизировать их и передавать следующим поколениям.

Я стал лучше понимать рациональность благодаря своим попыткам решать задачи, связанные с сильным искусственным интеллектом (чтобы по-настоящему построить работающего рационалиста из подручных материалов придётся самому овладеть рациональностью на достаточно высоком уровне). Зачастую задачи, связанные с ИИ, требуют намного большего, чем искусство личной рациональности, но иногда этого может хватить. Чтобы овладеть боевым искусством для разума нам нужно научиться в нужное время нажимать на нужные рычаги в гигантской уже существующей думающей машине, внутренности которой мы не в состоянии изменить. Часть этой машины оптимизирована в результате эволюционного отбора для достижения целей, которые противоречат нашим собственным. Мы объявляем, что нас интересует только правда, но в наши мозги зашит механизм рационализации лжи. То, что мы считаем недостатками машины, мы можем попробовать компенсировать, но мы не в состоянии по-настоящему перестроить наши нервные цепи. Впрочем, мастера боевых искусств тоже не в состоянии заменить свои кости титановыми, во всяком случае, пока.

Попытка создать искусство личной рациональности, опираясь на науку о рациональности, может показаться глупой. Кто-нибудь скажет, что это всё равно что пытаться изобрести боевое искусство на основе теоретической физики, теории игр и анатомии человека.

Однако люди способны к рефлексии. У нас есть природная склонность к интроспекции. Мы в состоянии заглянуть внутрь себя, пусть даже наше внутреннее зрение склонно к систематическим искажениям. Таким образом, нам нужно разобраться, что говорит наука по поводу нашей интуиции, с помощью абстрактных знаний исправить ход наших мыслей и улучшить наши метакогнитивные навыки.

Мы не пишем компьютерную программу, чтобы заставить марионетку показывать приёмы боевых искусств. Мы должны заставить двигаться «конечности» нашего собственного мозга. Для этого нам нужно связать теорию с практикой. Нужно выяснить, как использовать науку для нас самих, для повседневной работы нашего разума.

Перевод: 
Alaric
Оцените качество перевода: 
Средняя оценка: 3 (193 votes)

Знание задним числом

Элиезер Юдковский

Знание задним числом это искажение, при котором люди, знающие ответ, значительно переоценивают его предсказуемость или очевидность в сравнении с оценками тех, кто данный ответ заранее не знает. Иногда это искажение называют эффектом «я-знал-это-наперед».

Фишхофф и Бейт [Fischhoff и Beyth, 1975] представили студентам исторические отчеты о малоизвестных событиях, таких, как конфликт между гуркхами и англичанами в 1814 году. Пять групп студентов, получивших эту информацию, были опрошены в отношении того, как бы они оценили степень вероятности каждого из четырех исходов: победа англичан, победа гуркхов, патовая ситуация с мирным соглашением или пат без соглашения. Каждое из этих событий было описано как реальный итог ситуации одной из четырех экспериментальных групп. Пятой, контрольной группе, о реальном исходе не говорили ничего. Каждая экспериментальная группа приписала сообщенному ей итогу гораздо большую вероятность, чем любая другая или контрольная группа.

Эффект знания «задним числом» важен в суде, где судья или присяжные должны определить, виновен ли обвиняемый в преступной халатности, не предвидев опасность. [Sanchiro, 2003]. В эксперименте, основанном на реальном деле, Камин и Рахлинский [Kamin and Rachlinski, 1995] попросили две группы оценить вероятность ущерба от наводнения, причиненного закрытием принадлежащего городу разводного моста. Контрольной группе сообщили только базовую информацию, бывшую известной городу, когда власти решили не нанимать мостового смотрителя. Экспериментальной группе была дана эта же информация плюс сведения о том, что наводнение действительно случилось. Инструкции устанавливают, что город проявляет халатность, если поддающаяся предвидению вероятность наводнения больше 10 процентов. 76 % опрашиваемых из контрольной группы заключили, что наводнение было настолько маловероятным, что никакие предосторожности не были нужны. 57 % экспериментальной группы заключили, что наводнение было настолько вероятно, что неспособность принять меры предосторожности была преступной халатностью. Третьей группе сообщили итог и также ясным образом инструктировали избегать оценки задним числом, что не привело ни к каким результатам: 56 % респондентов этой группы заключили, что город был преступно халатен.

Рассматривая историю сквозь линзы нашего последующего знания, мы сильно недооцениваем затраты на предотвращения катастрофы. Так, в 1986 году космический челнок Челленджер взорвался по причине того, что кольцевой уплотнитель потерял гибкость при низкой температуре [Rogers, 1986]. Были предупреждающие сигналы о проблемах, связанных с кольцевым уплотнителем. Но предотвращение катастрофы Челленджера должно было потребовать не только внимания к проблемам с кольцевым уплотнителем, но и озабоченности каждым аналогичным предупреждающим сигналом, который бы казался столь же серьезным, как проблема уплотнителей, без преимущества последующего знания.

Вскоре после 11 сентября я подумал про себя, что сейчас кто-либо вспомнит про предупреждавшие сигналы разведки или наподобие этого, после чего знание задним числом начнет свою работу. Да, я уверен, что были предупреждения об Аль-Каиде, но вероятно были такие же предупреждения и об активности мафии, незаконной продаже ядерных материалов и вторжении с Марса.

Поскольку мы не видим цену всей картины, мы склонны выучивать только частные уроки. После 11 сентября Федеральное авиационное агенство запретило пользоваться на самолетах ножами для бумаг - словно бы проблема заключалась в том, что была пропущена эта частная «очевидная» мера предосторожности. Мы не выучили главный урок: цена эффективных мер предосторожности крайне высока, поскольку вам нужно стараться понять, что проблемы не так очевидны, какими кажутся прошлые трудности в свете знания задним числом.

Тестирование модели подразумевает под собой рассмотрение, насколько вероятен наблюдаемый исход. Знание задним числом систематически искажает этот тест; мы думаем, что у нашей модели больше вероятность быть истинной, чем на самом деле. И простое знание об этом когнитивном искажении не помогает убрать его влияние. Вам нужно выписывать ваши предсказания заранее. Или как говорит Фишхофф (1982):

Когда мы пытаемся понять прошлые события, мы неявно тестируем гипотезы или правила, которые используем для интерпретации и предсказания мира вокруг нас. Если, в свете знания задним числом, мы систематически недооцениваем сюрпризы, которые прошлое готовило и готовит для нас, мы подвергаем эти гипотезы слишком слабым тестам, и, возможно, не находим достаточно причины менять их.

Перевод: 
Remlin
Оцените качество перевода: 
Средняя оценка: 3.4 (48 votes)

Пример мотивированного продолжения

Элиезер Юдковский

Я могу понять многих комментирующих в «Пытки против песчинок в глазу»(English), которые утверждают, что предпочтительней песчинки в глазах у 3^^^3 (удивительное большое, но конечное число) людей, чем пятидесятилетняя пытка одного человека. Если вы думаете, что песчинка просто не имеет значения, пока нет других посторонних эффектов — если вы буквально не предпочитаете отсутствие песчинки ее наличию — тогда ваша позиция последовательна. (Хотя я подозреваю, что многие сторонники песчинок выразили бы иное предпочтение, если бы не знали о жале дилеммы.)

Так что хоть я и на стороне тех, кто выбирает ПЫТКУ, но я могу понять и тех, кто выбирает ПЕСЧИНКИ.

Но некоторые из вас говорят, что вопрос бессмысленен; или что вся мораль относительна и субъективна; или что вам нужно больше информации, прежде чем вы можете решить; или вы говорите о других запутывающих аспектах проблемы; и тогда вы не хотите выражать свои предпочтения.

Простите. Не могу поддержать вас в этом.

Если вы на самом деле отвечаете на дилемму, тогда не имеет значения какой выбор вы сделаете, все равно придется от чего-то отказаться. Если вы скажете ПЕСЧИНКИ, вы откажетесь от вашего утверждения на основании определенного вида утилитаризма; вы можете волноваться, что вы недостаточно рациональны, или что другие обвинят вас в приверженности большим числам. Если вы скажете ПЫТКА, вы примете исход, что там есть пытка.

Я фальсифицируемо предсказываю, что большинство тех, кто уходит от ответа, на самом деле уже знают свой ответ — либо ПЫТКА, либо ПЕСЧИНКИ — от высказывания которого они уходят. Возможно просто на долю секунды прежде чем запутывающе-вопросная операция закончится, но я предсказываю, что уход есть. (для большей конкретности: я не предсказываю, что вы знали и выбрали и имели в сознании прямо сейчас некоторый определенный ответ, который осознанно не даете. Я предсказываю, что ваше мышление склонно к определенному неудобному ответу, по крайней мере на долю секунды, прежде чем вы начнете искать причины, чтобы поставить под вопрос саму дилемму.)

В дискуссиях на тему биоэтики, вы очень часто можете видеть экспертов, обсуждающих то, что они видят как за и против, скажем, для исследований по стволовым клеткам; и тогда, в заключение своей речи, они рассудительно объявляют, что срочно требуется больше обсуждений, с участием всех заинтересованных сторон. Если вы на самом деле приходите к некому заключению, если вы на самом деле делаете вывод, что нужно запретить эти исследования, то на вас ополчатся родственники умирающих от болезни Паркинсона. Если вы выскажетесь за продолжение исследований, то на вас обрушится гнев религиозных фундаменталистов. Но кто будет спорить с призывом к дальнейшим обсуждениям?

Не нравится то, к чему ведут свидетельства в споре дарвинистов и креационистов? Рассмотрите вопрос трезво и решите, что нужно больше свидетельств; вы хотите, чтобы археологи нашли еще миллиард окаменелостей, прежде чем вы придете к единому выводу. Таким образом вы никогда не скажете ничего кощунственного, и в то же время не порушите свой образ как рационалиста. Продолжайте делать это во всех вопросах, которые могут выглядеть как ведущие в неудобном направлении, и вы сможете поддерживать в своем сознании всю религию.

Настоящая жизнь часто запутана, и нам приходится выбирать все равно, поскольку отказаться от выбора — это тоже выбор. План ничего не делать — это тоже план. Мы всегда что-то делаем, даже бездействуя. Как сказали Рассел и Норвиг, «Отказываться выбирать это все равно что отказываться, чтобы время шло».

Уворачиваться от неудобных выборов — опасная привычка для сознания. Есть определенные случаи, когда мудро отложить суждение (на час, но не на год). Но когда вы встаете перед дилеммой, где все ответы кажутся неподходящими, это не такой случай! Выберите один из неудобных ответов как наилучший по степени неудобности. Если информации недостает, заполните пробелы правдоподобными предположениями или вероятностными распределениями. Делайте все, что угодно, чтобы превозмочь простой уход в сторону от неудобства. Поскольку при этом вы просто пытаетесь убежать.

Пока вы не выбрали промежуточное лучшее предположение, неудобство будет поглощать ваше внимание, отвлекать вас от поиска, искушать вас запутаться в вопросе всякий раз, когда ваш анализ будет приводить вас к определенному направлению.

В реальной жизни, когда люди уклоняются от неудобных выборов, они часто вредят другим точно так же, как и себе. Отказаться от выбора очень часто наихудший выбор, который вы можете сделать. Мотивированное продолжение это не привычка мышления которую кто-либо может себе позволить, независимо от того, эгоист это или же альтруист. Цена удобства слишком велика. Важно овладеть привычкой стискивать зубы и выбирать — так же важно как впоследствии искать лучшие альтернативы.

Перевод: 
Remlin
Оцените качество перевода: 
Средняя оценка: 3.3 (66 votes)

31 закон удовольствия

Элиезер Юдковский

«Утопия? Вот это? Надо же…
По-моему, на Ад походит больше».

сэр Макс Бирбом, стихотворение, названное
«Надпись на экземпляре Утопии Мора (или Шоу, или Уэллса, или Платона, или кого угодно другого)»

Это краткое изложение цепочки «Теория удовольствия». Оно состоит из советов для авторов или футурологов, желающих описать мир, в котором людям действительно хотелось бы жить. Вся теория осталась «за кадром».

  1. Подумайте о типичном дне человека, который живёт в Утопии уже не первый день. Не зацикливайтесь на первых мгновениях «о-я-услышал-хорошую-новость». Усталый, измученный бедностью крестьянин обрадуется, услышав в раю, что «тебе больше не нужно работать, а улицы вымощены золотыми плитками!», но, скорее всего, спустя пару месяцев он уже будет не настолько счастлив от этого. (Prolegomena to a Theory of Fun1.)

  2. Хорошо подумайте перед тем, как внедрять в вашу Утопию какие-то занятия, которые вы считаете обязательными, хотя они не являются приятными. Взгляните на тот же христианский рай: пение гимнов не выглядит сверхудовольствием, но раз молитвой положено наслаждаться, никто не заостряет на этом внимание. (Prolegomena to a Theory of Fun.)

  3. Упрощение компьютерной игры не всегда её улучшает. То же самое верно и для жизни. Думайте не о полном уничтожении работы, а о том, как избавить людей от «низкокачественной» рутины, чтобы они могли заниматься «высококачественными» сложными делами. (High Challenge.)

  4. В жизни нужны новые ощущения и опыт, и лучше, чтобы он учил чему-то новому. Если новый опыт поступает слишком медленно (по сравнению со скоростью его усвоения и обобщения), будет скучно. (Complex Novelty.)

  5. Люди должны умнеть со скоростью, достаточной для интеграции старого опыта. Но они не должны умнеть настолько быстро, что им некуда будет применить свой новый интеллект. Чем умнее человек, тем быстрее ему становится скучно, но умный человек может решать задачи, которых раньше просто не понимал. (Complex Novelty.)

  6. Люди должны жить в мире, в котором их чувства, тела и мозги используются на полную катушку. Либо мир должен больше напоминать первобытную саванну, чем, скажем, офис без окон, либо мозги и тела должны быть модифицированы, чтобы различные разновидности сложных задач и окружений задействовали их полностью. (Для развлекательной фантастики предпочтителен первый вариант.) (Sensual Experience.)

  7. Тимоти Феррисс писал: «Что противоположно счастью – горе? Нет. Любовь и ненависть – две стороны одной и той же монеты, то же самое справедливо для счастья и горя… Антитеза любви – безразличие, противоположность счастья – скука, в том-то и вся загвоздка… Следует задаваться не вопросами „Чего я хочу?“ или „В чем заключается моя цель“, а вопросом „Что по-настоящему увлекает меня?“… „Жить как миллионер“ – значит заниматься интересными делами, а не просто владеть имуществом, вызывающим зависть».2 (Existential Angst Factory.)

  8. Жизнь каждого человека должна становиться всё лучше и лучше. (Continuous Improvement.)

  9. Вам не надо точно знать, что именно станет лучше в будущем, но вы должны постоянно пытаться это предсказать. В итоге будущее должно оказаться приятным сюрпризом. (Justified Expectation of Pleasant Surprises.)

  10. Наши предки, охотники и собиратели, сами мастерили свои луки, плели свои корзины и строгали свои флейты. Затем они самостоятельно охотились, собирали и играли свою музыку. В Утопиях будущего часто изображается всё больше и больше удобных кнопок, но что именно они делают — понятно всё меньше и меньше. Не спрашивайте о том, что Утопия может сделать для людей. Подумайте лучше, чем интересным могут заниматься её жители — используя свой мозг, своё тело и понятные им инструменты. (Living By Your Own Strength.)

  11. Живя в Эутопии3, люди должны становиться сильнее, а не слабее. Её обитатели должны впечатлять больше, чем обитатели нашего мира, а не наоборот. (Living By Your Own Strength. Также см. Цуёку наритаи.)

  12. Жизнь не должна дробиться на серию несвязанных между собой эпизодов, не имеющих долгосрочных последствий. Нельзя построить жизнь, играя в самые лучшие компьютерные игры, и неважно, насколько эти игры сложны и реалистичны. (Emotional Involvement.)

  13. Люди должны сами вершить свою судьбу. В их жизни всегда должно оставаться место их планам, воображению и возможности управлять своим будущим. Нельзя делать граждан пешками в руках могучих богов, и тем более — их материалом для лепки. Есть простой способ решить эту проблему: мир должен работать по стабильным правилам, которые для всех одинаковы, и Эутопия должна держаться на хорошем выборе начальных правил, а не на каком бы то ни было оптимизационном давлении на жизни людей. (Free to Optimize.)

  14. Человеческие разумы не должны играть на одном поле со значительно превосходящими их сущностями. Большинство людей не любит быть в тени. При взаимодействии с богами человек теряет статус «главного персонажа». Это нежелательно в фантастике, а возможно, и в реальной жизни. (См. “Нарния” К.С. Льюиса, “Культура” Иэна Бэнкса). Либо измените эмоциональную организацию людей так, чтобы они не чувствовали себя ненужными, либо не допускайте богов на их игровое поле. Художественное произведение, предназначенное для людей, не может использовать первый путь. (И в реальной жизни, вероятно, могут быть ИИ, не относящиеся ни к разумным, ни к мешающим. См. основной пост и предшествующее ему.) (Amputation of Destiny.)

  15. Также сложно придумать, как человек может соревноваться на одном поле с ещё шестью миллиардами других людей. Наши первобытные предки жили в группах примерно по 50 человек. Сегодня же СМИ постоянно бомбардируют нас новостями о необычайно богатых и милых людях, и возникает ощущение, будто они живут по соседству. Однако очень немногие люди имеют шанс стать лучшими в чём бы то ни было. (Dunbar’s Function.)

  16. Наши первобытные предки в какой-то степени могли по-настоящему влиять на политику своего племени. Сравните с современным миром национальных государств, в котором почти никто не знает Президента лично и не может убедить Конгресс в том, что он принял плохое решение. (Впрочем, это не мешает людям спорить так, будто они всё ещё живут в племени из полусотни человек.) (Dunbar’s Function.)

  17. Слишком большой выбор не всегда оказывается благом (особенно, если люди не в состоянии получить предлагаемые возможности самостоятельно). Боль от потери сильнее, чем удовольствие от эквивалентного приобретения, и потому, если варианты выбора различаются по многим параметрам, а доступен только один вариант, люди будут фокусироваться на потере невыбранного. Если у людей есть способ избежать неких трудностей, то трудности кажутся менее серьёзными, даже если человек не пользуется этим способом. Также, к сожалению, люди предсказуемо совершают определённые ошибки. Не стоит думать, что больше вариантов — это всегда лучше, потому что «люди всегда могут просто сказать „нет“ ». Больше вариантов выбора обнадёжит лишь читателя художественной книги. «Не волнуйся, ты сделаешь выбор! Ты же доверяешь себе?» Однако жить в условиях большого выбора не всегда настолько забавно. (Harmful Options.)

  18. Экстремальный пример для предыдущего пункта: постоянное искушение невероятно опасными соблазнами, вроде абсолютно реалистичного виртуального мир, или наркотик, дарующий невероятно приятные ощущения и вызывающий сильнейшую зависимость. Вы не сможете позволить себе ни минуты слабости. (См. трилогию Джона Райт «Золотой век»). (Devil’s Offers.)

  19. Однако, если люди развиты настолько, что способны отстрелить себе ноги без посторонней помощи, останавливать их — это чересчур. Можно лишь надеяться, что он достаточно умны, чтобы это не делать, ведь к тому времени, когда они создают пистолет, они уже знают, что происходит при нажатии на курок, и им не нужно удушающее «защитное одеяло». Если это верно, то опасные возможности должны быть ограждены преградами соответствующей «высоты». (Devil’s Offers.)

  20. Если сказать людям правду, до которой они пока не дошли самостоятельно, это не всегда им поможет. (Joy in Discovery.)

  21. Мозг — одна из сложнейших штук во вселенной. Поэтому нам редко приходится взаимодействовать с чем-то сложнее, чем другие люди (другие разумы). И это взаимодействие уникально из-за эмпатии, которую мы испытываем друг к другу: наш мозг считает другие мозги чем-то похожим на себя, а не воспринимает их как большие и сложные машины, у которых нужно дёргать рычажки. Если людям нужно будет меньше взаимодействовать с другими людьми, сложность человеческого существования понизится. Это шаг в неверном направлении. Поэтому не стоит поддаваться искушению упростить жизнь людей, например, дав им идеальных искусственных сексуальных/романтических партнёров. (Interpersonal Entanglement.)

  22. Однако следует признать, что статистически у людей есть проблемы с сексуальными взаимодействиями: распределение мужских характеристик не соответствуют распределению женских желаний и наоборот. Не всё в Эутопии должно быть просто, однако в ней не должно быть ничего бессмысленного и не должно быть разочарований, с которыми ничего нельзя поделать. (Это общий принцип.) Поэтому лучше подумать, как можно повлиять на распределения, чтобы задача оказалась разрешима, а не решать её взмахом волшебной палочки. (Interpersonal Entanglement.)

  23. Вообще, менять мозги, разумы, эмоции и личные качества гораздо опаснее (и с точки зрения этики, и с точки зрения сложности), чем менять тела и условия обитания. Всегда стоит подумать, что вы можете сделать с окружающей средой, перед тем как придумывать изменения в сознании, а если уж решили заняться сознанием, начинайте с маленьких изменений. В противном случае за полётом вашей мысли не успеют не только ваши читатели, но и ваше собственное воображение. (Changing Emotions.)

  24. В нашем мире наслаждение и боль не сбалансированы. Неопытный палач с простыми инструментами за тридцать секунд причинит больше боли, чем сверхискушенный секс-мастер сможет доставить удовольствия за тридцать минут. Один из вариантов — устранить этот дисбаланс: пусть в мире будет больше радости, чем печали. Боль допустима, но только не бесцельная бесконечная невыносимая боль. Наказание должно быть пропорционально ошибке: человек может коснуться горячей плиты и получить болезненный ожог, но он не должен оказываться в инвалидном кресле из-за того, что отвлёкся на пару секунд. Люди становятся сильнее и меньше мучаются. Также в этом варианте следует устранить боль, убивающую разум, и сделать удовольствия более доступными. Другой вариант — полное устранение боли. Возможно, с точки зрения реального мира у него есть серьёзные преимущества, но в художественной литературе его выбирать нельзя ни в коем случае. (Serious Stories.)

  25. Джордж Оруэлл однажды заметил, что Утопии крайне озабочены тем, как бы избежать беспокойства. Не бойтесь написать громкую Эутопию, которая разбудит ваших соседей. (Eutopia is Scary, Джордж Оруэлл, «Почему социалисты не верят в счастье».)

  26. Джордж Оруэлл также заметил, что «Жители идеальных вселенных не способны на спонтанное веселье и обычно отвратительно торгуются». Если в вашей истории персонажи ведут себя именно так, возможно, вы упустили что-то серьёзное и ситуацию нельзя исправить, обязав Государство нанять несколько клоунов. (Джордж Оруэлл, «Почему социалисты не верят в счастье».)

  27. Если бы Бен Франклин попал в наше время, чему-то он бы удивился и обрадовался. Что-то наоборот показалось бы ему ужасающим и отвратительным, и не потому что наш мир развивался как-то неправильно, а потому что наш мир стал лучше по сравнению с эпохой Франклина. Очень мало вещей оказались бы именно такими, как он ожидал. Если вы воображаете мир, который кажется вам знакомым и комфортным, он мало кого вдохновит. Этот мир будет казаться ненастоящим. Попробуйте изобрести по-настоящему лучший мир, который шокировал бы вас (по крайней мере, поначалу), и в котором бы вы чувствовали себя не в своей тарелке (по крайней мере, поначалу). (Eutopia is Scary.)

  28. Утопия и антиутопия — две стороны одной медали: обе подтверждают ваши исходные моральные убеждения. Неважно, либертарианская это утопия с невмешивающимся правительством, или адская антиутопия, в которой государство вторгается во всё, вы скажете: «Я всегда был прав.» Не стоит придумывать мир, который будет соответствовать вашим текущим идеалам государства, отношений, политики, работы или повседневной жизни. Не надо плыть ни по течению, ни против, создайте что-нибудь ещё. (Чтобы обезопасить свои идеалы, скажите себе: «Наверняка это хороший мир, но он не лучше моей любимой стандартной Утопии…». Однако, если ваши идеалы начнут меняться, вы поймёте, что всё сделали правильно.) (Building Weirdtopia.)

  29. Если ваша Утопия оказалась мрачным местом, задыхающимся под тяжестью экзистенциальной тоски, и у вас ничего не получается с этим поделать, значит, есть как минимум одна серьёзная проблема, на которую вы совсем не обратили внимания. (Existential Angst Factory.)

  30. Жалок тот разум, который заботится лишь о себе и ни о чём другом. В нашем мире, чтобы заметить множество людей, находящихся в отчаянном положении, альтруисту стоит лишь оглянуться. У людей в лучшем мире картина иная: в настоящей Эутопии не так легко найти жертв, которых нужно спасать. Из этого не следует, что жители Эутопии оглянувшись вокруг, ничего не увидят: они смогут заботиться о друзьях и семье, правде и свободе, совместных проектах, а также других разумах, общих целях и высоких идеалах. (Higher Purpose.)

  31. В то же время, не стоит для своей истории об Эутопии использовать удобный сюжет «Тёмный Лорд Саурон собирается напасть и всех убить». Потенциальный автор обязан придумать какие-то чуть менее ужасные вызовы для своих персонажей. Ведь прогресс человечества не мешает рассказывать истории об отдельных людях, и люди могут интересно жить даже в отсутствие неминуемой угрозы смерти. Показать это — интересная и сложная задача. Тем же, кому интересны катастрофы планетарного масштаба, стоит сосредоточиться на наших современных реалиях. (Higher Purpose.)

Найти решение, которое удовлетворит всем вышеизложенным условиям, — упражнение для читателя. По крайней мере, пока.

Упоминание в данном списке определённых законов не должно быть истолковано как отрицание или принижение неупомянутых. Например, я не написал о юморе, но мир без смеха был бы тосклив, и т.д.

Каждому, кто всерьёз хочет написать Эутопию с применением этих законов, я хочу сказать: сначала научитесь писать. Существует очень много книг о том, как писать. Вам нужно прочесть минимум три. В любой из них будет упомянуто о важности практики. Тренироваться лучше на чём-нибудь полегче, чем Эутопия. Тем не менее, мой второй совет авторам таков: вашим персонажам никогда не будет скучно и просто, пока они могут создавать друг другу трудности.

И напоследок хочу предупредить: детальная проработка мира, который лучше, чем ваша жизнь, может высосать вашу душу как дементор. Теория Удовольствий опасна. Применяйте её осторожно, вас предупредили.

  • 1. Каждый из пунктов этого эссе ссылается на какое-то эссе из упомянутой цепочки «Теория удовольствия». К сожалению, эта цепочка пока ещё не дождалась своих переводчиков на русский язык. — Прим.перев.
  • 2. Цитируется по переводу Тимоти Феррис, «Как работать по четыре часа в неделю», ООО «Издательство «Добрая книга», 2008, 2010. — Прим.перев.
  • 3. Здесь и далее Юдковский использует слово «Эутопия»(Eutopia) для обозначения «настоящей» Утопии, той, в которой действительно приятно жить. — Прим.перев.
Перевод: 
Tookser, Alaric
Оцените качество перевода: 
Средняя оценка: 3.3 (50 votes)

Атеизм = не-теизм + анти-теизм

Элиезер Юдковский

Время от времени нам задают вопросы из серии «Какая польза от того, чтобы постоянно быть недовольным по поводу того, что Бога нет?». С другой стороны, мы слышим такие фразы, как «Младенцы — атеисты от природы». Мне кажется, что такие замечания и довольно глупые дискуссии, которые вокруг них разгораются, показывают, что понятие «атеизм» на самом деле состоит из двух отдельных компонентов. Назовём их «не-теизм» и «анти-теизм».

Чистый «не-теист» — это человек, выросший в обществе, в котором понятие «Бог» просто никогда не было изобретено — письменность в этом обществе изобрели раньше сельского хозяйства, и одомашивание растений и животных было делом рук ранних учёных. В таком мире суеверие добралось только до первобытного этапа, на котором мир кажется наполненным множеством духов, почти не имеющих собственной морали. Затем суеверие вступило в конфликт с наукой и сошло на нет.

Суеверия первобытных охотников и собирателей не очень похожи на то, что мы обычно понимаем под «религией». Ранние западные комментаторы часто высмеивали их, утверждая, что они и вовсе религией не являются; эти комментаторы, на мой взгляд, были правы. У охотников и собирателей сверхъестественные агенты не имеют никакой особенной моральной грани, и не следят за соблюдением каких-то правил. Их можно умилостивить церемониями, но им не поклоняются. И, что самое главное, охотники и собиратели ещё не успели расщепить свою эпистемологию. У первобытных культур нет специальных правил для рассуждений о «сверхъестественных» сущностях, или даже явного разграничения между сверхъестественным и естественным; духи грома просто существуют в рамках естественного мира, о чём свидетельствует молния, и наш ритуальный танец вызова дождя призван управлять ими. Это, наверно, не идеальный танец вызова дождя, но это лучший из всех, что пока придумали — был ещё тот знаменитый случай, когда он сработал…

Если бы вы показали первобытным людям ритуал для вызова дождя, который работал бы со стопроцентной гарантией посредством взывания к другому духу (или завод по опреснению воды, что в принципе одно и то же), они, скорее всего, быстро избавились бы от старого. У них нет специальных правил для рассуждения (English) о духах — ничего, что могло бы оправдать результат теста имени пророка Илии, который прошёл новый ритуал и не прошёл старый. Для отрицания этого теста нужна вера, религиозные убеждения — а это концепция, возникшая уже после аграрного периода. Перед этим не было государств, в которых священнослужители были ветвью власти, боги не являлись моральным стандартом и не следили за соблюдением установленных вождями правил, и за сомнения в них и их существовании не было специального наказания.

И поэтому цивилизация не-теистов, изобретя науку, просто самым обычным образом делает вывод, что дождь, оказывается, вызван конденсацией в облаках, а не духами. Они ощущает некоторую неловкость по поводу старого суеверия и без промедления выбрасывают его прочь. Они не испытывают никаких трудностей, потому что у них есть лишь суеверия, они ещё не успели добраться до анти-эпистемологии (English) (дополнительных правил мышления в определённых категориях, обычно для защиты существующих убеждений от опровержения).

Не-теисты не знают, что они «атеисты», потому что им никто не рассказал, во что они должны не верить — никто не изобрел «высшего бога», который был бы главным в пантеоне, не говоря уже о монолатрии или монотеизме.

Тем не менее, не-теисты уже знают, что они не верят в существование духов деревьев. Мы можем даже предположить, что они не только не верят в лесных духов, но и в целом имеют хорошую, развитую эпистемологию, и поэтому понимают, что постулировать онтологически базовые ментальные сущности (сущности, которые нельзя редукционистски свести к не-ментальным сущностям, таким, как атомы) — не очень хорошая идея.

Как не-теисты встретят идею Бога?

— Вселенная была создана Богом.
— Кем?
— Э-э, гм, Богом. Бог есть Творец — разум, который решил создать вселенную, и…
— А, так вы утверждаете, что вселенная была создана разумным агентом. Похоже, вы говорите о стандартной гипотезе о том, что мы живём в компьютерной симуляции. Вы, кажется, весьма уверены в этом — у вас что, есть какие-то сильные свидетельства?..
— Нет, я не имею ввиду Матрицу! Бог — это не житель другой Вселенной, запустивший симулятор этой, он просто… Его невозможно описать. Он есть Первопричина, Творец всего, и…
— Кажется, вы постулируете онтологически базовую мыслящую сущность. К тому же, то, что вы предложили — это просто таинственный ответ на таинственный вопрос. Вообще, откуда вы всё это взяли? Не могли бы вы начать рассказ со своих свидетельств — какие новые наблюдения Вы пытаетесь объяснить?
— Мне не нужно никаких свидетельств, у меня есть Вера!
— У вас есть что?

И в этот самый момент не-теисты впервые стали атеистами. То, благодаря чему произошла эта трансформация и есть приобретение анти-теизма — формулирование явных аргументов против теизма. Если вы ни разу не слышали о Боге, вы можете быть не-теистом, но не анти-теистом.

Конечно же, не-теисты не собираются изобретать какие-то новые правила для опровержения Бога — они просто применяют стандартные эпистемологические принципы, которые были разработаны их цивилизацией в процессе отказа от других теорий и концепций — таких, скажем, как витализм. Рационалисты утверждают, что именно так и должен выглядеть анти-теизм в нашем мире: анализ религии при помощи стандартных, общих правил. Этот анализ, как становится ясно достаточно скоро, приводит к её полному отбрасыванию — как с точки зрения познания мира, так и с точки зрения морали. Каждый анти-теистический аргумент должен быть частным случаем общего правила эпистемологии или морали, применимого и вне религии — к примеру, в столкновении науки и витализма.

Если принять во внимание различие между не-теизмом и анти-теизмом, то многие современные споры становятся более понятными — например, вопрос «Зачем придавать столько значения тому, что Бога не существует?» можно перефразировать в «Какова польза обществу от попыток распространения анти-теизма?» Или вопрос «Какой толк от того, чтобы быть просто против чего-то? Где ваша позитивная программа?» превращается в «Меньше анти-теизма и больше не-теизма!». И становится понятно, почему фраза «дети рождаются атеистами» звучит странновато — просто дети не имеют понятия об анти-теизме.

Теперь что касается утверждения о том, что религия совместима с разумным познанием: найдётся ли хоть одно религиозное утверждение, которое не будет отвергнуто хорошо развитой, продвинутой цивилизацией не-теистов? Не будет отвергнуто в ситуации, когда ни у кого нет причин быть осторожным с выводами, нет специальных правил, выделяющих религию в отдельный магистерий, и нет последователей существующих традиционных религий, которых не хотелось бы расстраивать?

Борьба против богизма не имеет никакой самостоятельной ценности — общество не-теистов забудет об этом споре на следующий же день.

Но, по крайней мере, в нашем мире безумие — это не очень хорошо, и здравомыслие стоит защищать, и поэтому открытый анти-теизм (такой как, например, у Ричарда Докинза) приносит пользу обществу — разумеется, при условии того, что он действительно работает (вполне возможно, так и есть: в новом поколении всё больше и больше атеистов).

Тем не менее, цель в долгосрочной перспективе — это не общество атеистов. Это общество не-теистов, в котором на вопрос «Если Бога нет, то что же остается?» люди с недоумением отвечают «А разве чего-то не хватает?».

Перевод: 
sershe
Оцените качество перевода: 
Средняя оценка: 3.4 (720 votes)

Забудьте кое-что, чему вас учили в школе

Элиезер Юдковский

В «Трех школьных вещах, от которых нужно отучиться» (English) Бен Касноча ссылается на список из трех вредных привычек мышления, составленный Биллом Буллардом: считать важными частные мнения, решать выданные задачи, зарабатывать одобрение других. Альтернативы, предлагаемые Буллардом, не кажутся мне хорошими, однако он уверенно выделил некоторые важные проблемы.

Я могу назвать многие другие вредные привычки мышления, привитые школой (и их будет слишком много, чтобы озвучить здесь), но ограничусь двумя из наиболее нелюбимых.

I. Полагаю, что самая опасная привычка мышления, которую прививает школа, заключается в том, что вы, даже не понимая чего-то, можете просто воспроизвести это, как попугай. Один из базовых навыков, полезных в жизни, — уметь осознать свое замешательство, и школа активно сводит эту способность на нет, приучая школьников думать, что они «понимают», если они в состоянии успешно ответить на аттестационные вопросы, что крайне, невероятно далеко от полноценного усвоения знаний, когда они становятся частью вас. Ученики привыкают, что «питание» означает «класть еду в рот»; экзамен не требует разжевывать ее или проглатывать, и они остаются голодными.

Основной причиной этой проблемы может быть необходимость параллельно изучать несколько предметов (каждый из них, разумеется, требует прочитывать большие объемы текстов и выполнять немалое количество домашних работ); расписание запланировано под неистовую зубрежку, за это время невозможно глубоко разжевать и неторопливо переварить знания. Ученикам колледжей не позволяется быть озадаченными; если кто-то из них решит сказать «Постойте, а понимаю ли я это на самом деле? Может, лучше будет, если я проведу несколько дней, читая статьи на эту тему, или обращусь к другому учебнику», он провалится на всех курсах, которые взял на четверть. Через месяц он смог бы понять материал куда лучше и запомнить надолго, но месяц после экзаменов — слишком поздно; в безумной функции полезности, принятой в университетах, это пустой звук.

Многие учащиеся, прошедшие через этот процесс, после этого даже не осознают, если что-то озадачивает их, и не замечают белых пятен в своем мышлении. Их отучили брать паузу на размышление.

II. Я где-то читал (не помню, где именно), что в некой стране физики, казалось, всё больше становились похожими на фанатичных религиозных экстремистов. Это озадачивало меня, пока автор не предположил, что студенты-физики воспринимают услышанные знания как твёрдую истину и таким образом усваивают привычку доверять авторитету.

Выдавать людям авторитетные знания в огромных объемах может быть опасно, особенно если эти знания верны. Это может навредить критическому мышлению.

Но как же нужно поступать? Рассказывать учащимся историю физики, как одни идеи, в свою очередь, сменялись другими, верными? «Вот старая идея, вот новая, вот эксперимент: новая идея победила!» Повторите этот урок десять раз, и какой навык мышления вы привьете? «Новые идеи всегда выигрывают; каждая новая мысль в физике оказывается верной». Так вы по-прежнему не научите никого критическому мышлению, потому что только покажете, как выглядит история задним числом. Вы привьете студентам мысль, что различать справедливые и ложные идеи — это совершенно прозрачно и прямолинейно, и даже если нет ничего, что подтвердило бы новую блестящую мысль, она, похоже, верна.

Не исключено, что возможно преподавать историю физики с исторически реалистичной точки зрения (не опираясь на ретроспективный взгляд) и показывать студентам различные альтернативы, казавшиеся вероятными в свое время, воспроизводя имевшие тогда место разногласия и дискуссии.

Возможно, вы смогли бы избежать подачи знаний студентам на блюдечке с голубой каемочкой: покажите им различные версии уравнений (выглядящие похожими на правду!) и попросите объяснить, какие из них справедливы, или разработать эксперименты, которые смогут различить альтернативы. Это не настолько затруднительно, как если бы мы требовали замечать необычное без подсказок и изобретать объяснения с нуля, но этот способ был бы громадным улучшением по сравнению с тем, чтобы просто запоминать авторитетные знания.

Пожалуй, вы смогли бы выработать привычку думать так: «Мысли, изложенные в авторитетных источниках, зачастую несовершенны, но необходимо приложить огромные усилия, чтобы найти идею лучше. Большинство возможных изменений привело бы к худшему, хотя каждое улучшение — это обязательно изменение».

Перевод: 
Quilfe, Mari_Priutilova, tatiana090293
Оцените качество перевода: 
Средняя оценка: 5 (12 votes)

Непередаваемое превосходство

Элиезер Юдковский

Есть целый литературный жанр, предлагающий продать вам секретный ингредиент успеха Билла Гейтса или Уоррена Баффета, создателя сверхуспешной холдинговой компании Berkshire Hathaway. Основная идея: вы, да-да, именно вы можете стать следующим Ларри Пейджем.

Но скорее всего даже Уоррен Баффет не сможет сделать из вас следующего Уоррена Баффета. Настолько невероятный успех потому и называется невероятным, что никто ещё не догадался, как достичь его наверняка.

Эти книги в большинстве своём – пустая трата надежды. Они скармливают нам исступление от близкой, но недостижимой возможности славы; поэтому я называю их «порнографией превосходства», с поджанрами вроде «порнографии инвестирования» или «порнографии бизнеса», рассказывающими, как любой бариста может основать следующий Старбакс, а любой экономист - попасть в список Fortune 500. Называть эти произведения «порнографией превосходства», наверное, нехорошо по отношению к настоящей порнографии, которая, по крайней мере, явная фикция.

В нашем мире есть невероятно мощные техники, которые наша цивилизация научилась преподавать, техники наподобие «проверяй идеи экспериментом» или «используй капитал, чтобы добыть больше капитала». Вы, да-да, именно вы, можете стать учёным! Может, не совсем каждый, но достаточно людей могут стать учёными, используя выучиваемые техники и передаваемое знание, чтобы поддержать нашу техногенную цивилизацию.

«Вы можете заново инвестировать выручку от предыдущих инвестиций!» Может, вы и не взорвёте рынок, как Уоррен Баффет, но подумайте о цивилизации в целом, практикующей это правило. Мы справляемся намного лучше, чем это делали древние общества без банков и бирж. (Нет, серьёзно, в целом мы до сих пор лучше.) Потому что приём Реинвестирования может быть передан, может быть записан словами, может работать даже для обычных людей без экстраординарной удачи… мы не считаем его невероятным триумфом. Каждый может его применить, значит, наверное, не так уж он и важен (English).

Уоррен Баффет сумел заставить многих людей ценить инвестирование. Он выдал череду советов, и действенных советов притом, исходя из тех, что я читал. По крайней мере, у меня сложилось впечатление, что если бы он знал, как рассказать, что осталось, он бы попросту рассказал.

Но Berkshire Hathaway и Баффет лично до сих пор тратят огромное количество времени, высматривая выдающихся менеджеров. Зачем? Потому что они не знают никакого систематически надёжного способа брать смышлёных детей и превращать их в обитателей Fortune 500.

Есть вещи, которым можно научиться у звёзд. Но вы не можете ожидать так просто поглотить всю их душу; последние кусочки экстраординарности будут самыми сложными. В лучшем случае, вы выучите несколько полезных трюков, которые также могут выучить немало других людей, но так и не подберётесь к желаемому статусу звезды. Если, конечно, у вас самих нет правильного набора генов, годов усилий, вложенных в тренировки, гор удачи на всём пути, и т.д., и т.п.; идея в том, что вам не добраться туда, читая порнографию.

(Если кто-то и в самом деле изобретёт новый выучиваемый суперприём, способный двинуть нашу цивилизацию далеко вперёд, то уже к тому моменту, как вы его закончите учить, появятся сотни других звёзд, применяющих этот трюк!)

Есть много уроков, которые можно извлечь отсюда, но один из главных - история учит не тому, как побеждать, а тому, как не проигрывать (English).

Намного легче избегать повторения легендарных провалов, чем повторять легендарные успехи. Также ошибки намного легче обобщать между областями. Предполагаемые инструкции «как стать звездой» крайне конкретные (Баффет != Эйнштейн), тогда как уроки «как не быть идиотом» в разных профессиях имеют много общего.

Кен Лэй, может научить, как не погубить ещё один Enron, намного надёжнее, чем Уоррен Баффет – как основать ещё один Berkshire Hathaway. Кейси Серин может научить, как терять надежду, лорд Кельвин - как не поклоняться своему невежеству…

Но такие уроки не сделают из вас звезды. Они могут предотвратить вашу жизнь от несчастий, но это не то же самое, что великие победы. Ещё хуже, эти уроки могут показать, что вы делаете что-то не так, что вы, да-да, именно вы вот-вот пополните списки дураков.

Намного легче продавать порнографию превосходства.

Перевод: 
Павел Садовников
Оцените качество перевода: 
Средняя оценка: 4.1 (9 votes)

О красоте математики

Элиезер Юдковский

Взглянем на последовательность {1, 4, 9, 16, 25, …}. Можно заметить, что это квадраты: A[k] = k^2. Предположим, однако, что вы не увидели закономерности с первого взгляда. Есть ли способ предсказать следующий элемент последовательности? Да, можно найти разности между соседними элементами (разности первого порядка) и получить следующе:

{4 – 1, 9 – 4, 16 – 9, 25 – 16, …} = {3, 5, 7, 9, …}

Даже если вы не заметили, что это последовательные нечётные числа, сдаваться пока рано. Если вы найдете разности соседних чисел ещё раз (назовем это разностями второго порядка), то у вас получится следующее:

{5 – 3, 7 – 5, 9 – 7, …} = {2, 2, 2, …}

Если вы не сможете увидеть, что это повторяющаяся двойка, то в этом случае вы действительно безнадежны.

Но если вы предскажете, что и следующая разность второго порядка — это тоже 2, то это позволит предположить, что следующая разность первого порядка — 11, а следующий элемент исходной последовательности должен равняться 36. И это, как вы вскоре убедитесь, верно.

Копнув достаточно глубоко, можно обнаружить скрытую закономерность, внутреннюю структуру, устойчивые соотношения под переменчивой поверхностью.

Исходная последовательность была получена возведением в квадрат идущих друг за другом чисел. Однако нам удалось продолжить её, используя, казалось бы, совершенно другой подход — такой, который мы, в принципе, могли бы применить, даже не осознавая, что получаем квадраты. Можете ли вы доказать, что эти способы всегда равносильны? (Ведь до сих пор, как вы заметили, мы этого не доказывали, а только предполагали по индукции.) Можете ли вы, как любил спрашивать Пойя, упростить доказательство так, чтобы оно было ясным с первого взгляда?

По современным стандартам это очень простой пример, но это пример такой вещи, в поисках которой математики порой тратят целые жизни.

Радость математики заключается в том, что мы изобретаем некоторые объекты, а затем обнаруживаем, что они обладают всевозможными удивительными свойствами, которые мы не намеревались им прививать. Это как сконструировать тостер и увидеть, что ваше изобретение по какой-то неясной причине работает ещё и как реактивный ранец и mp3-плеер.

Числа открывали и переоткрывали множество раз на протяжении истории человечества. (Похоже, что на некоторых артефактах, датируемых 30000 г. до н.э., действительно находятся насечки, подозрительно напоминающие счетные.) Но я сомневаюсь, что кто-нибудь из людей, придумавших счёт, представлял себе, какой работой он обеспечит будущие поколения математиков. Или то возбуждение, которое однажды будет окружать Великую теорему Ферма или проблему факторизации в RSA-криптографии… И тем не менее всё это неявно уже содержится в определении натуральных чисел, как разности первого и второго порядка — в последовательности квадратов.

Именно это создает впечатление математической вселенной, существующей «где-то там», в платоновском Идеальном, которое люди скорее изучают, нежели создают. Наши определения переносят нас в различные участки Идеального, но мы не создаем там ничего самостоятельно. Так кажется, как минимум, потому, что мы не помним создания всех тех замечательных вещей, которые мы открыли. Первооткрыватели натуральных чисел отправились в Страну счёта, но не создали её, а последующие математики потратили столетия, изучая эту Страну и обнаруживая в ней всевозможные вещи, которые никто не мог даже попытаться себе представить в 30 000 г. до Р. Х.

Сказать, что люди «изобрели числа» (или неявную сущность, скрытую в числах) — всё равно, что заявить, будто Нил Армстронг своими руками слепил Луну. Вселенная существовала до того, как появились разумные существа, её изучающие, и это подразумевает, что физика предшествовала физикам. Это головоломка, я знаю; но если вы заявите, что физики были первыми, то все станет еще запутаннее, ведь возникновение физика требует, хм, достаточно много физики. Физика опирается на математику, так что последняя (или хотя бы та её часть, которая используется физикой) должна предшествовать математикам. Иначе не было бы структурированной вселенной, существующей достаточно долго, чтобы за миллиарды лет организмы, не знающие даже сложения, смогли эволюционировать в математиков.

Удивительно, что математика — это игра без разработчика, и, тем не менее, в неё в полной мере можно играть.

О, а вот и доказательство, что закономерность, которую мы обсуждали выше, верна:

(k + 1)^2 = k^2 + (2k + 1)

Или, более наглядно:

Думаете, задача квадратов настолько тривиальна, что не заслуживает вашего внимания? Думаете, что нет ничего удивительного в разностях первого и второго порядка? Думаете, они так очевидно подразумеваются в квадратах, что не могут считаться отдельным открытием? Тогда рассмотрите кубы:

1, 8, 27, 64…

А теперь — без прямых вычислений и каких-либо математических действий — можете ли вы с первого же взгляда сказать, какой будет разность третьего порядка?

И, конечно, когда вы узнаете, какова у последовательности кубов разность третьго порядка, вы осознаете, что по-другому и быть не могло.

Перевод: 
Quilfe, Aelryn
Оцените качество перевода: 
Средняя оценка: 4.3 (19 votes)

Пацифизм губит ухоженные сады

Элиезер Юдковский

Основная причина гибели хороших интернет-сообществ — отказ от самозащиты.

Где-нибудь в необъятных недрах интернета это происходит прямо сейчас. Когда-то на этом месте был чистый ухоженный сад для интеллектуальных бесед, куда приходили образованные и заинтересованные люди, привлечённые высоким уровнем доносящихся оттуда речей. Но вот в сад прибывает глупец и уровень бесед чуточку падает — или даже не на чуточку, если глупец вмешивается в разговоры с упорством, достойным лучшего применения. (Плохо дело, если глупец изъясняется достаточно внятно — тогда завсегдатаи сада считают себя обязанными ответить, рассеять его заблуждения. И с этого момента глупец безраздельно властвует беседой.)

Сад гниёт и теперь присоединение к его участникам доставляет не так много удовольствия. Он всё ещё полон обитателей, когда-то вложивших усилия в становление сада, но новые люди уже не так охотно приходят сюда. Качество вновь прибывших (если таковые и есть) тоже снижается.

Затем приходит ещё один глупец, и два глупца начинают общаться уже друг с другом, после чего часть старожилов — людей самых высоких требований и с самыми радужными перспективами — уходят…

Я успел застать ныне забытый USENET1, хоть я и был тогда очень молод. Тот пре-интернет пал жертвой Вечного Сентября2 в незапамятные времена. В отличие от тех времён, в современном интернете всегда имеется хоть какой-нибудь способ бороться с нежелательным контентом. В первую очередь дело в спаме — преступлении столь тяжком, что у него не найдётся защитников, и столь распространённом, что никто не может его просто игнорировать — везде просто обязан быть банхаммер3.

Однако, когда дело касается вторжения глупцов, то некоторые сообщества не считают себя способными опуститься до использования банхаммера — ведь это цензура(ужас!).

В конце концов, любой воспитанник мира академической науки в курсе, что цензура считается смертным грехом… внутри огороженных неприступной стеной садов, вход в которые стоит огромных денег, где студенты в страхе ждут оценок от своих преподавателей, а заглянувшим в кабинет уборщицам не позволено открывать рта во время идущего семинара.

Как же легко наивно возмущаться ужасами цензуры, уже живя в холёном саду. Точно также легко наивно восхищаться добродетелью безусловного ненасильственного пацифизма, когда на страже границ твоей страны уже стоят вооружённые солдаты, а покой твоего города охраняет полиция. До тех пор, пока полиция делает свою работу, благочестивость не налагает на вас никаких серьёзных обязательств и не стоит практически никаких усилий.

Однако, в интернет-сообществах нельзя рассчитывать, что полиция сможет делать свою работу и игнорировать вас. Добродетельность сообщества обычно оплачивается им самим.

В самом начале, пока сообщество ещё цветёт, цензура кажется ужасающей и надуманной обузой. Дела пока что идут довольно неплохо. Это просто один глупец, и если мы не способны вынести всего лишь одного глупца, то, видимо, терпимость не входит в список наших сильных сторон. Ну и потом, глупцу ведь может надоесть и он сам уйдёт — нет нужды вводить цензуру. И пускай принадлежность к сообществу приносит уже не так много удовольствия — разве какое-то там банальное удовольствие может быть достаточным оправданием для цензуры(ужас!)? Это ведь всё равно что бить людей, чей внешний вид вам чем-то не понравился.

(Стоит учесть, что решение о вступлении в сообщество принимается исключительно добровольно, и если потенциальному новому участнику не понравится «внешний вид» старожилов, то он просто не захочет вступать).

В конце концов, кто будет цензором? Кому вообще можно доверить такую власть?

Скорее всего, если сад ухожен, то довольно многим. Но если сад хоть чуточку разделён внутри, если в нём есть фракции, если в нём найдутся люди, которые продолжают тусоваться в сообществе и при этом не слишком-то доверяют модератору или другому потенциальному владельцу банхаммера…

(в глазах таких людей внутренняя политика часто представляется чем-то намного более важным, чем какое-то там нашествие варваров)

…то тогда попытка защитить сообщество обычно объявляется попыткой захвата власти. Да как он посмел объявить себя судией и палачом? Он что, считает, что владеть сервером — значит владеть людьми? Владеть нашим сообществом? Он думает, что доступ к управлению исходниками сайта делает его богом?

Должен признаться: долгое время я совершенно не понимал, почему самозащита сообществ постоянно проваливается и считал, что причина кроется в наивности. Мне даже не в приходила в голову мысль о том, что это следствие уравнительского инстинкта, предохраняющего племена от концентрации слишком большого количества власти в руках вождя. «Нет среди нас лучших, все мы боеспособные мужчины — есть у меня свои стрелы» — такая поговорка ходила в каком-то из племён охотников-собирателей (в отличие от шимпанзе, у людей есть «уравнители» — оружие. Похоже, что вожди появились лишь ко времени открытия земледелия — в момент, когда пропала возможность просто взять и покинуть племя).

Возможно, всё потому, что я вырос в тех областях интернета, где всегда был управляющий сервером системный оператор, и потому-то мне кажется естественным считать, что владелец сервера несёт определённую ответственность. Возможно, всё потому, что я интуитивно ощущаю: противоположность цензуры — не университетская подсеть, а анонимный двач(да и у того всё равно есть какие-то способы борьбы со спамом). Возможно, я вырос на том просторе, где единственной важной свободой была свобода выбрать ухоженный сад себе по нраву, и которому по нраву придёшься ты — это всё равно, что найти, наконец, страну с хорошими законами. Возможно, я принимал за должное, что если тебе не нравится местный главный волшебник, то правильно будет просто уйти (такое случилось со мной однажды и я действительно просто взял и ушёл).

А, возможно, потому, что владельцем сервера часто был я. Но я последователен и поддерживаю решения модераторов, даже если внутренняя политика развела нас в разные партии. Уж я-то знаю, к чему приводит, когда онлайн-сообщество начинает сомневаться в собственных модераторах. Если речь идёт о списке почтовой рассылки, то ни один из моих политических врагов, чья популярность действительно может представлять опасность, скорее всего не принадлежит к числу тех, кто станет злоупотреблять цензурой ради власти. Когда такой человек надевает шляпу модератора4, то я его вербально поддерживаю: модераторам требуются поощрения, а не ограничения. Воспитанные в университетской среде люди попросту не осознают, насколько велика толщина стен недопущения, удерживающих троллей за пределами их холёного сада с так называемой «свободой слова».

Если у сообщества действительно есть основания для сомнения в модераторах, если его модераторы в самом деле используют свою власть в личных целях — то, наверное, это сообщество не стоит того, чтобы его спасать. Но, насколько мне известно, такое чаще встречается на словах, и почти никогда — на деле.

В любом случае, озарение касательно эгалитаризма (глубинного стремления не допускать сосредоточения власти в руках одного лидера), убивающего интернет-сообщества, пришло ко мне совсем недавно. Если быть точным, то во время чтения какого-то комментария(не помню, какого именно) на LessWrong.

Но я наблюдал, как это происходит — снова и снова, был одним из участников, подталкивал модераторов и поддерживал все их решения, нравились они мне как люди, или нет. И всё равно, модераторы прилагали недостаточно усилий для того, чтобы предотвратить медленное угасание сообщества. Они были слишком скромны и степень их сомнения в себе была на порядок выше, чем моя степень сомнения в них. Дело происходило в прибежище рационалистов, а третье главное искушение рационалистов — грех недоуверенности.

Такова суть интернета: войти может любой. И любой может выйти. И поэтому в пребывании в интернет-сообществе всегда должно быть удовольствие — без этого сообщество погибнет. Если надеяться до последнего, терпеть до тех пор, пока не столкнёшься с абсолютным, неприкрытым, неопровержимым кошмаром (то есть, вести себя, как ведёт полицейский, прежде чем открыть огонь на поражение), потакать своей совести и добродетелям, взращенным внутри полностью защищённой крепости, и начать действовать лишь в момент полной уверенности в собственной правоте и без страха перед вопрошающими взглядами — в этот момент будет уже слишком поздно.

Я видел, как сообщества рационалистов погибали из-за того, что они слишком мало доверяли своим модераторам.

Но это — не то же самое, что и система кармы.

В случае с системой кармы доверять следует себе.

Мне хочется привести небезызвестную цитату: «Ты можешь не верить в себя. Но поверь в то, что я верю в тебя!»5

Потому что я искренне считаю, что, если ты хочешь минусануть комментарий, который кажется тебе низкокачественным — но всё же ты медлишь, боясь, что на самом деле желание минусануть возникло лишь из-за того, что ты не согласен с его выводом или из-за нелюбви к его автору, переживая из-за того, что кто-то может обвинить тебя в конформизме, бездумном поддакивании или в цензуре(ужас!) — то (я готов поставить на это деньги), как минимум в девяти случаях из десяти этот комментарий действительно будет низкокачественным.

Тебе дана минусовалка. Голосуй, или про-USENET-ишь6.

  • 1. Usenet — созданная в 1980 году компьютерная сеть, действующая до сих пор. Формат общения близок к современному формату списков почтовой рассылки(mailing list). См. https://ru.wikipedia.org/wiki/Usenet — Здесь и далее примечания переводчика.
  • 2. Usenet был в основном университетской сетью и новые пользователи, незнакомые с принятым ней этикетом, обычно добавлялись в начале учебного года. Когда в 1993 году Usenet стал доступен для всех пользователей интернета без ограничения, старожили заметили существенное и нескончаемое падение уровня дискуссий — наступил вечный сентябрь. См. https://ru.wikipedia.org/wiki/Вечный_сентябрь
  • 3. Банхаммер — сленговое название инструмента модерации, позволяющее администраторам запрещать пользователю создавать новый контент, т.е., банить его.
  • 4. «Надеть шляпу X» — психологический приём, помогающий сфокусироваться в определённый момент времени на желаемых качествах X при размышлении или разговоре. См. https://ru.wikipedia.org/wiki/Шестьшляпмышления
  • 5. Неточная цитата из аниме Gurren Lagann, см. https://www.cbr.com/gurren-lagann-anime-best-quotes/
  • 6. В оригинале игра слов: «Use it or USENET»
Перевод: 
BT, kmeneusdomi, ildaar
Оцените качество перевода: 
Средняя оценка: 4.1 (50 votes)

Предполагая красоту

Элиезер Юдковский

Если вы посмотрите на последовательность {1, 4, 9, 16, 25, …} и не увидите в ней квадраты чисел, то вы все еще можете успешно предсказать последующие числа, если заметите разности первого порядка — {3, 5, 7, 9, …}. Действительно, ваше предсказание может попасть в точку, хотя у вас нет никакой возможности это проверить, не посмотрев на выдачу генератора. Соответствие может быть выражено алгебраически или даже геометрически. Это и вправду довольно изящно.

Что бы ни прославляли люди, они будут склонны прославлять это еще сильнее; поэтому некоторые скептики считают, что погоня за изящностью подобна болезни; она создает стройную математику вместо того, чтобы разбираться в беспорядке реального мира. «Тебе повезло», — скажут они, — «но тебе не будет везти всегда. Если ты ожидаешь подобной изящности, то ты исказишь видение мира в угоду своим представлениям и отсечешь те куски реальности, которые не вписываются в твою милую картинку».

Я имею в виду, например, следующее. К вам в руки попадает последовательность {1, 8, 27, 64, 125, …}. Отыскав разности первого порядка, вы получите {7, 19, 37, 61, …}. Все эти числа объединяет лишь то, что они простые, но они даже не идут в последовательности простых чисел подряд. Тут, очевидно, нет изящного порядка, какой мы видели у квадратов чисел.

Вы можете попытаться заставить последовательность вести себя, по-вашему, правильно, настаивая, что разности первого порядка должны быть равномерно распределены, а любые отклонения — ошибки измерения (впрочем, лучше о них просто не думать). «Вы решите», — скажет скептик, — «что разности первого порядка отстоят друг от друга примерно на двадцать, являясь простыми числами, так что следующая разность, вероятно, 83, тогда следующим числом в исходной последовательности будет 208. Но действительность с вами не согласится — это 216».

Сами виноваты, раз ожидали ясности и изящества там, где их нет. Вы оказались чересчур привержены абсолютам, слишком нуждались в совершенстве. Здесь-то и зарыта собака (уф… внимание!) редукционизма!

Уже из выбранного мной примера вы могли догадаться, что я не считаю это хорошим подходом к задаче. Ведь здесь не то чтобы совсем не было закономерности, просто нужно было копнуть немного глубже. Последовательность {7, 19, 37, 61, …} непримечательная (встреть вы ее на улице, могли бы и не узнать), но найдите разности второго порядка, и получите {12, 18, 24, …}. Теперь третьего, и у вас будет {6, 6, …}.

Вы забрались глубже, отыскав устойчивый уровень, но он уже был в примере всё это время.

Если вы слишком быстро хватаетесь за увиденную закономерность, допытываетесь совершенства здесь и сейчас, пытаетесь взломать модель, то, возможно, вам никогда не удастся добраться до устойчивого уровня. Если вы подправляете разности первого порядка, чтобы сделать их «более равномерными» в соответствии со своими эстетическими понятиями (еще до того, как обнаружите настоящий закон, заключенный в самой математике), то найденные вами разности второго и третьего порядков окажутся неверными. Может быть, вы даже не затрудните себя найти их. С того момента, как вы приведете разности первого порядка в соответствие со своими представлениями о прекрасном, вы обретете счастье. Или будете громогласно заявлять, что его обрели.

Ничего из вышесказанного никак не противоречит редукционизму. Порядок заключен здесь, просто спрятан глубже. Мораль моей басни в том, что не надо искать прекрасного? Или в том, чтобы горделиво исповедовать это повсеместное мировоззрение об уродливости мироздания? Нет; мораль в том, чтобы своевременно переходить на более глубокий уровень; сначала отмерять, а уж потом резать; не прерывать исследование ради красоты раньше времени. Пока вы в состоянии не принимать преждевременную иллюзорную красоту за чистую монету, все необходимые меры предосторожности на случай, что реальность окажется неизящной, уже соблюдены.

Но разве это не (уф…) вера — искать красоту там, где ее еще не видно?

Как я недавно подметил, если вы скажете «Я много раз видел смену времен года и ожидаю, что завтра солнце взойдет вон в той точке горизона», это будет недостоверно. И если вы скажете, «Я предполагаю, что мне явится джинн и подарит мне сказочное богатство», то это также будет недостоверно. Но это не одна и та же степень недостоверности; недостаточно справедливо называть то и другое одним словом «вера».

Искать математическую красоту, где ее пока не видно, не столь же надежно, как ожидать, что солнце поднимется на востоке. Но, однако, не кажется, что это та же градация неуверенности, что и в случае с джинном, особенно если перед этим вы изучили последние 57 тысяч случаев, когда человечеству удалось найти скрытую закономерность.

И все же постулаты и аксиомы математики — самодостаточные и закрытые структуры. Можем ли мы рассчитывать, что беспорядочный реальный мир обнаружит скрытую красоту? В следующем выпуске нашей радиопередачи мы расскажем об этом. Не переключайтесь!

Перевод: 
Quilfe, XoR
Оцените качество перевода: 
Средняя оценка: 5 (3 votes)

Против адвокатуры дьявола

Элиезер Юдковский

Из статьи Майкла Рьюза:

Ричард Докинз однажды назвал меня подонком. Он сделал это весьма публично, но не подразумевал желание меня обидеть. Я и не обиделся: мы были и остаёмся друзьями. Причиной его гнева — или даже страданий — было то, что я в ходе публичной дискуссии защищал позицию, которой по-настоящему не придерживался. Мы, философы, все время так делаем; это вариант аргумента «reductio ad absurdum». Отчасти мы делаем это, чтобы подстегнуть дебаты (особенно на уроках), отчасти, чтобы увидеть, насколько далеко можно завести позицию, пока она не разрушится, (и увидеть, почему разрушится), и, отчасти, (будем честны) излить кровожадность, поскольку нам нравится возмущать оппонентов.

Докинз тем не менее, обладает моральной непорочностью — кто-то даже сказал бы моральной закостенелостью — пылкого христианина или идейного феминиста. Даже во имя спора он не может поддержать то, что считает неверным. Делать так не просто ошибочно, считает он; это неправильно в каком-то очень глубоком смысле. Жизнь серьёзна, и есть зло, с которым нужно бороться. Здесь нет места компромиссам или неоднозначностям, даже в педагогических целях. Как говорят квакеры: «Да будет слово ваше: да, да; нет, нет».

Майкл Рьюз ничего не понял.

Когда я был ребёнком, мой отец учил меня скептицизму —

(Папа был в той же степени заядлым скептиком и поклонником Мартина Гарднера и Джеймса Рэнди, в какой и ортодоксальным евреем. Пусть это будет доводом в пользу анти-лечебной силы отделения религии от повседневной жизни.)

— он приводил в пример гипотезу: «Есть объект в поясе астероидов, состоящий целиком из шоколадного торта». Тебе придется изучить каждый объект пояса, чтобы опровергнуть эту гипотезу. Однако, несмотря на то, что эту гипотезу невероятно тяжело опровергнуть, нет и ни одного довода в её пользу.

И маленький Элиезер попросил свой разум поискать аргументы в пользу существования шоколадного торта в поясе астероидов. И вот его разум выдал ответ: «Так как шоколадный торт в поясе астероидов - один из классических примеров плохой гипотезы, если кто-нибудь когда-нибудь изобретёт машину времени, то какой-нибудь шутник подбросит шоколадный торт в пояс астероидов в двадцатом веке, чтобы всё это оказалось правдой».

Так — в очень раннем возрасте — я обнаружил, что мой разум способен, если постараться, придумать аргументы в пользу чего угодно.

Я знаю людей, которых это открытие лишило здравого смысла. Они пришли к выводу, что Разум может быть использован, чтобы отстаивать что угодно. Тогда бессмысленно доказывать, что Бога не существует, потому что вы с тем же успехом могли бы доказывать, что он существует. Ничего не остаётся, кроме как верить, во что захотите.

Сдавшись, они разрабатывают целые философские системы, чтобы их отчаяние выглядело Глубокой Мудростью. Если они заметят, что вы пытаетесь использовать Разум, они просто улыбнутся, погладят вас по голове и скажут: «О, когда-нибудь ты поймёшь, что можешь аргументировать за что угодно».

Быть может, даже сейчас мои читатели думают: «Ох, Элиезер может рационализировать что угодно, это дурной знак».

Но вы знаете… быть ментально гибким не всегда обрекает вас на катастрофу. Я имею в виду, вы этого ожидаете. Но оказывается, что практика отличается от теории.

Рационализация пришла ко мне слишком просто. Было заметно, что это просто игра.

Если бы у меня было хуже с воображением или меня легче было бы поставить в тупик - если бы я не обнаружил, что могу аргументировать любое предположение, и неважно, насколько оно бредовое - тогда, возможно, я бы мог перепутать это занятие с мышлением.

Но я могу даже привести аргументы в пользу существования шоколадного торта в поясе астероидов. Это даже не было трудно; мой мозг сразу же выдал аргумент. Было совершенно ясно, что это мышление — поддельное, а не настоящее. Я ни на мгновение не перепутал игру с реальной жизнью. Я не начал думать, что в поясе астероидов действительно может оказаться шоколадный торт.

Можно было бы ожидать, что любой ребёнок, обладающий достаточно живым умом, чтобы придумать аргументы в пользу чего угодно, точно обречён. Но интеллект не всегда приносит столько вреда, как вы могли бы подумать. В данном случае он просто помог мне в очень раннем возрасте начать различать «рассуждение» и «рационализацию». Между ними ощущалась разница.

Возможно, память меня обманывает… но мне кажется, что даже в таком юном возрасте я посмотрел на предложенный моим мозгом удивительно умный аргумент в пользу путешествующего во времени шоколадного торта и подумал: я должен избегать этого.

(Хотя существуют другие, гораздо более тонкие когнитивные воплощения процессов рационализации, чем бесстыдный, очевидный, сознательный поиск подходящих аргументов. Бессловесное уклонение от рассмотрения той или иной идеи может сбить вас с пути не хуже, чем преднамеренный поиск аргументов против неё. Эти коварные процессы я начал замечать только годы спустя).

Интуитивно я ощущал, что настоящее мышление - это нечто, что дает вам правильный ответ, нравится он вам или нет, а поддельное мышление — это способность доказать что угодно.

Это был невероятно ценный урок —

(хотя, как и многие другие принципы, которые молодой я приобрёл путём анализа вещей, обратных глупости. Он был хорош, когда требовался совет по конкретным проблемам, но мог завести в страшные дебри, когда я пытался применять его, чтобы сделать абстрактные выводы, например, о природе морали)

— который был одним из главных факторов, приведших к моему разрыву с иудаизмом. Тщательно продуманные аргументы и контраргументы древних раввинов были похожи на то фальшивое мышление, которое помогло мне придумать историю про шоколадный торт в поясе астероидов. Только раввины забыли, что это игра, и действительно воспринимали всё всерьёз.

Поверьте, я понимаю традиционный довод в пользу практики адвоката дьявола. Защищая противоположную позицию, вы делаете свой ум более гибким. Вы вытряхиваете себя из привычных рамок. У вас появляется шанс собрать свидетельства против своей позиции, вместо того чтобы защищать её. Вы поворачиваете стол и видите вещи с другой точки зрения. Переход на другую сторону — это честная игра, так что вы разворачиваетесь на 180 градусов, чтобы играть честно.

Возможно, именно это Майкл Рьюз имел в виду, когда обвинил Ричарда Докинза в «моральной ригидности».

Конечно, я не намерен учить людей говорить: «Так как я верю в фей, я не должен ожидать, что мне удастся найти хорошие доказательства того, что фей не существует, так что я не буду искать, потому что это умственное усилие имеет невысокую ожидаемую полезность». Всё это происходит под лозунгом «если вы хотите отстрелить себе ногу, нет ничего проще».

Может быть, существуют какие-то этапы жизни или состояния ума, когда игра в адвоката дьявола может вам помочь. Студенты, которые никогда не задумывались о том, чтобы попробовать искать доводы в пользу обеих сторон проблемы, могут извлечь пользу из понятия «адвокат дьявола».

Но с кем-то, кто находится в этом состоянии ума, я бы скорее начал с того, что политические прения не должны выглядеть односторонними. Нет оснований не ожидать, что с обеих сторон дебатов существуют сильные доводы; одно и то же действие может иметь разные последствия. Если вы не можете представить себе хороших доводов против политического курса, к которому вы благосклонны, или хороших доводов за тот курс, который вы ненавидите, но другие люди одобряют, тогда очень вероятно, что у вас проблема, которая называется «неспособность увидеть другие точки зрения».

Вы, дорогой читатель, вероятно, достаточно хороши в искусстве рассуждения, что если вы смогли закрепиться на правильной дороге, вы не сойдете с нее, если будете играть адвоката дьявола по необходимости. Вы просто будете подсознательно избегать любых аргументов Дьявола, которые будут заставлять вас всерьез нервничать, а затем поздравите себя с выполнением необходимого. Людям на таком уровне нужно более сильное средство. (Пока я рассказал только о средне-сильном средстве).

Если вы можете привести себя в состояние настоящего сомнения и искреннего любопытства, вам уже не нужен адвокат дьявола. Вы можете исследовать противоположную позицию потому что думаете, что она может и правда быть истинной, а не потому что вы играете в игры с шоколадным тортом, путешествующим сквозь время. А если вы не можете привести себя в такое состояние, то может ли вам помочь игра в адвоката дьявола?

У меня нет проблемы придумать аргументы, почему Сингулярность не настанет в ближайшие 50 лет. С некоторыми усилиями я могу представить случай, в котором ее не будет и через 100 лет. Еще я могу придумать правдоподобные сценарии, в которых Сингулярность настанет через две минуты, например, если кто-то делает тайный проект, и он завершается вот прямо сейчас. Я могу придумать правдоподобные аргументы для 10, 20, 30 и 40 лет.

Это не потому что я хорошо играю в адвоката дьявола и придумываю умные аргументы. Это потому что я правда не знаю. Настоящие сомнения присутствуют в каждом случае и я могу их проследить до источника настоящего аргумента. Или, если хотите, я правда не знаю, потому что я могу придумать все эти правдоподобные аргументы.

С другой стороны, мне действительно сложно визуализировать утверждение, что нет типа разума, принципиально более сильного, чем человеческий. Мне сложно поверить, что человеческий мозг, которого едва хватило на то чтобы построить технологическую цивилизацию и придумать компьютеры, теоретически является потолком эффективности интеллекта. Я не могу хорошо аргументировать за это, потому что я сам этому не верю. Или, если хотите, я не верю в это, потому что я не могу за это хорошо аргументировать. Если вы хотите, чтобы кто-то за это аргументировал, найдите того, кто правда в это верит. С очень раннего возраста я стремлюсь избегать образа мыслей, в котором вы можете аргументировать за что угодно.

В состоянии ума и этапе жизни, в котором вы пытаетесь отличить друг от друга рациональность и рационализацию и пытаетесь понять разницу между сильными и слабыми аргументами, игра в адвоката дьявола не может привести вас к неподдельным способам мышления. Ее единственная сила в том, что в некоторых случаях она может показать вам поддельные способы, которые одинаково хорошо работают за обе стороны, и показать вам места, в которых вы не уверены.

Не бывает гроссмейстеров, которые умеют играть только за белых или только за черных. Но в битвах Разума солдат, который дерется за обе стороны с одинаковой силой, имеет нулевую силу.

Так что Ричард Докинз понимает кое-что, чего не понимает Майкл Рьюз: что Разум - это не игра.

Добавлено: Брэндон утверждает, что адвокатура Дьявола это важный социальный, а не индивидуальный процесс. Я об этом, признаюсь, не подумал.

Перевод: 
El_Aurens, Pion, deep_blue_hexagon, Zeta000, Sankogin
Оцените качество перевода: 
Средняя оценка: 3.9 (12 votes)

Рациональность — это систематизированное выигрывание

Элиезер Юдковский

«Рационалисты должны выигрывать», сказал я, и, похоже, мне придется прекратить так говорить, потому что под этим понимают не то, что я хотел сказать.

Откуда вообще взялась эта фраза? Из обсуждения задачи Ньюкома: сверхсущество Омега дает вам на выбор две коробки, прозрачную коробку А с тысячей долларов (или аналогичной ценностью) и непрозрачную коробку Б, в которой может быть либо ничего, либо миллион долларов. Омега говорит вам: «В коробке Б есть миллион долларов только в том случае, если я предсказал, что вы возьмете только коробку Б, оставив А». Омега играл в эту игру много раз и предсказывает правильно 99 раз из 100. Вы возьмете обе коробки или только Б?

Распространенная позиция — на деле она вообще доминирующая в современной философии и теории принятия решений — что единственным разумным выбором будет взять обе коробки; Омега уже принял решение и ушел, так что ваше действие не повлияет на содержимое коробок в любом случае (их аргументация). Теперь, так получилось, что определенные типы безрассудных людей вознаграждаются Омегой (который делает это даже до того, как они приняли решение), но это не меняет заключения, что разумнее всего взять две коробки, что сделает вас богаче на тысячу долларов в любом случае, вне зависимости от содержимого Б.

Именно такой тип мышления я хотел раскритиковать, говоря что рационалисты должны выигрывать.

Миямото Мусаси сказал: «Помни, когда в твоих руках меч — ты должен поразить противника, чего бы тебе это ни стоило. Когда ты парируешь удар, наносишь его, делаешь выпад, отбиваешь клинок или касаешься атакующего меча противника, ты должен сразить противника тем же движением. Достигай цели. Если ты будешь думать только о блокировании ударов, выпадах и касаниях, ты не сможешь действительно достать врага».1

Я сказал: «Если тебе не удалось найти правильный ответ, бессмысленно говорить, что ты действовал правильно».

Вот что я на самом деле хотел донести, когда говорил, что рационалисты должны выигрывать.

Существует точка зрения, которая говорит, что определенный ритуал процесса познания — это образец разумности; таким образом он определяет, что должны делать разумные люди. Но, увы, часто разумные люди проигрывают неразумным, потому что вселенная не всегда разумна. Интеллект это лишь один из путей делать что-либо, не всегда самый подходящий; как если бы профессора разговаривали друг с другом в дискуссионном зале, что иногда срабатывает, иногда нет. Если же толпа варваров атакует дискуссионный зал, по-настоящему толковый и гибкий агент оставит разумность.

Нет. Если «иррациональный» агент превосходит вас систематическим и предсказуемым образом, тогда самое время посмотреть, думаете ли вы «рационально».

Я опасаюсь, что «рационалист» будет держаться за свой метод познания, даже если он терпит неудачу за неудачей, утешая себя: «Я веду себя так добродетельно и разумно, просто ужасно нечестно, что вселенная не дает мне того, что я заслуживаю. Другие просто жульничают, делая все нерационально, вот почему они меня обходят».

Это то, от чего я стараюсь предостеречь, говоря, что рационалисты должны выигрывать. Не скулить, а выигрывать. Если вы продолжаете проигрывать, возможно, вы делаете что-либо не так. Не утешайте себя тем, как вы были замечательно рациональны, если вы проиграли. Это не то, как должно все идти. Это не рациональность неправильна, это вы неправильно используете рациональность.

Это касается и эпистемологической рациональности, если вы осознаете, что думаете о убеждении Х как о разумном (потому что большинство людей верят в это же или просто потому что оно звучит привлекательно), хотя сам по себе мир определенно демонстрирует Y.

Но люди, похоже, понимают это иначе, нежели я имею в виду — словно любой, кто объявляет себя рационалистом, мгновенно преисполняется непобедимого духа, что позволяет им получать все что угодно без усилий и без каких-либо помех или чего-то подобного, я не знаю.

Возможно, альтернативную фразу можно найти у Мусаси, который сказал: «Дух школы Ити — дух победы, вне зависимости от вида оружия и его длины».2

«Рациональность — это дух выигрывания»?
«Рациональность — это путь выигрывания»?
«Рациональность — это систематизированное выигрывание»?

  • 1. Перевод взят с сайта lib.ru, к сожалению, переводчик там не указан. — Прим.редактора.
  • 2. Перевод также взят с сайта lib.ru. — Прим.редактора.
Перевод: 
Remlin
Оцените качество перевода: 
Средняя оценка: 4.1 (17 votes)

Учи невыучиваемому

Элиезер Юдковский

Предыдущий в минисерии: Непередаваемое превосходство

Следует за: Искусственное сложение (English)

Литературный конвейер, который я называю «порнографией превосходства» не слишком хорош в том, что делает. Но это провал довольно важной задачи. Сравнив пользу цивилизации в целом от звёздных навыков Уоррена Баффета и от менее гламурного, но более передаваемого трюка «инвестируйте заново ваши доходы», вряд ли вы будете сомневаться. Легко заметить, как сильно изменится мир, если придумать, как выразить всего лишь ещё один навык, до сих пор бывшим секретным ингредиентом успеха. Не порнографическое обещание постичь душу звезды. Всего лишь способ надёжно передать ещё одну мысль, даже если она не означает всего

Что делает успех таким сложным для повторения?

Голые статистические шансы всегда непередаваемы. Неважно, что вы можете сказать насчёт удачи, вы не можете научить кого-нибудь иметь её. Искусство хватать возможности и открывать себя положительным случайностям (English) обычно недооценивают. Я видел людей, останавливающихся на своём пути из-за «неудачи», которую предприниматель из Силиконовой долины раздавил бы, словно паровой каток – лежачего полицейского… Но даже так, остаётся чистый элемент случайности.

Успех Эйнштейна (English) зависел от его генов, давших ему потенциал, чтобы развить навыки сверх обычного уровня. Если навыки зависят от умственных способностей, вы не можете передать их большинству людей… но даже если такой потенциал – один-на-миллион, то шесть тысяч Эйнштейнов, разгуливающих по планете - совсем не плохо. (А если немного пофантазировать, то кто сказал, что гены непередаваемы? Просто требуется немного более продвинутая технология, чем школьная доска, только и всего.)

Итак, мы исключили истинно непередаваемое - что осталось? До куда можно отодвинуть границу? Чему возможно научить – пусть и очень сложно – но чему не учат?

Мне однажды сказали, что половина Нобелевских лауреатов были учениками других Нобелевских лауреатов. Этот источник (English, pdf) утверждает, что 155 из 503. (Интересно, что тот же источник подсказывает, что число Нобелевских лауреатов с «Нобелевскими дедушками» (учителями учителей) всего лишь 60.) Даже если сделать поправку на отбор выдающихся учеников и политическое проталкивание кандидатов, факты подсказывают, что можно перенимать вещи, находясь в ученичестве – наблюдение из-за плеча, беседы в свободной форме, постоянная правка ошибок в течение работы. Ни один Нобелевский лауреат ещё не преуспел в том, чтобы поместить всё это в книгу.

Что же это такое, чему учатся преемники Нобелевских лауреатов, но не может быть выражено словами?

Этот предмет притягивает меня, так как он сообщается с мета-уровнем, с источником в глубине, с пропастью между генератором и его выходом (English). Мы можем объяснить эйнштейнову теорию относительности студентам, но не можем сделать из них Эйнштейнов. (Если посмотреть на это с правильного угла, то весь гений человеческого интеллекта ничто иное как непередаваемое прозрение, которое есть у людей, но которое мы не можем объяснить компьютеру.)

Количество бессловесного интеллекта в нашей работе обычно недооценивается, потому что сами по себе слова намного легче анализировать (English). Но когда я обращаю внимание, я вижу, что большая часть моих поисковых способностей проявляется во вспышках восприятия, говорящих мне, что именно важно, какую мысль нужно думать следующей.

Когда я встретил своего ученика Марселло, он уже был лучше в математических доказательствах, чем я, по крайней мере, намного быстрее. Он соревновался на национальном уровне, но на подобных соревнованиях вам говорят, какие задачи важны. (А ещё на соревнованиях вы сразу сдаёте листочек с решениями и перескакиваете к следующей задаче, не анализируя, можно ли упростить доказательство, объять его целиком, получить из него ещё что-нибудь.) Но действительно важная вещь, которой я пытался научить – проверяя, можно ли вообще ей научить – было ощущение, какие проблемы ИИ куда-нибудь ведут, а какие - пустышки. «Ты можешь жать на педали так же хорошо, как и я, - сказал я ему, когда он спросил меня, хорошо ли справляется, - но девяносто процентов времени рулю до сих пор я» Это были постоянные упорные попытки облечь в слова причины, почему я думал, что мы ещё не нашли по-настоящему важного прозрения, таящегося где-то в задаче, почему мы должны отбросить текущее доказательство Марселло, переформулировать задачу и попытаться ещё раз, с другого угла, чтобы узнать поймём ли мы проблему по-настоящему в этот раз.

Мы проходим через череду событий, и наш мозг использует неявный алгоритм, чтобы размолоть полученный опыт в сухой остаток, а затем - ещё один неявный алгоритм, чтобы сформировать из него нейронную сеть: процедурный навык, источник бессловесной интуиции, который вы знаете настолько быстро, что вы не знаете, что знаете его. «Нулевой шаг», - так я его называю, шаг в обуславливании вещей, который идёт до первого шага в решении и пролетает настолько быстро, что вы не понимаете, что он был.

Я горжусь умением облекать вещи в словесную формулировку, вникать в одномоментные вспышки озарений и высматривать в них узор и направление, даже если я не могу указать на механизмы, ответственные за них. Но когда я пытался передать остриё, фронт моих работ, где я расширял знание, слова были бессильны, и мне оставалось разбирать с Марселло задачу за задачей, надеясь, что его мозг уловит невыразимый ритм пилотирования: налево, направо; вот это, наверное, достойно развития, это – нет; это кажется ценным озарением, а это – всего лишь чёрная коробка вокруг нашего незнания.

Я ожидал, что так и будет; я никогда не надеялся, что самые главные части мыслей можно будет легко переложить на слова. Если бы это было так просто, то мы бы действительно создали искусственный интеллект в семидесятых.

Цивилизация продвигается, обучая выходу из генератора, а не генерированию. Эйнштейн произвёл многочисленные открытия, затем сгенерировал знание достаточно словесное, чтобы быть переданным студентам в университетах. Когда же нужен ещё один Эйнштейн, цивилизация может лишь затаить дыхание и надеяться.

Но если эти бессловесные навыки есть продукт опыта, то почему не передать опыт (English)? Или, если книги не слишком хороши, а они, наверное, и близко к этому не подходят, то почему бы не провести людей через череду тех же событий, чтобы передать опыт?

  1. Звёзды могут и не знать, что было критически важным опытом.

  2. Критически важные события могут быть сложными для воспроизведения. Например, каждый уже знает ответ к специальной теории относительности, и теперь мы не можем тренировать людей, давая им эту же задачу. Даже знание, что там что-то о взаимосвязи между пространством и временем, уже довольно сильный спойлер. Самая важная часть задачи и есть та, где ученик сверлит взглядом белый лист бумаги до тех пор, пока капли крови не выступят на лбу, пытаясь сообразить, о чём думать дальше. Навыки гениев редки, я уже упоминал (English), потому что мало возможностей практиковать их.

  3. В дело может быть вовлечена удача или природный талант, подсказывая правильные вещи для изучения – нахождения высококачественного решения в пространстве бессловесных процедурных умений. Даже если мы проведём человека через те же испытания, останутся компоненты чистой случайности, влияющие на вероятность изучения того же невыразимого навыка.

Но, я думаю, всё ещё есть причина, продолжать описывать неописываемое и учить невыучиваемому.

Представьте развитие умений играть в азартные игры с изобретением теории вероятности несколько веков назад. В покере до сих пор сохранилась часть искусства, которое звёзды покера могут лишь частично передать на словах. Но в прошлом никто и понятия не имел, как вычислить шанс выпадения одних единиц на трёх кубиках. Может, опытный игрок и имел невыразимое понятие, что некоторые вещи более вероятны, чем другие, но не мог высказать его словами – не мог передать никому, что он узнал о вероятности, кроме как, может, через долгий процесс наблюдения за учеником из-за плеча и корректирования его ставок.

Чем больше мы узнаём что-либо в определённой области и наблюдаем звёзд за работой, тем больше мы узнаём о человеческом разуме в целом, тем больше мы можем надеяться, что новый навык превратится из непередаваемого в выучиваемый, а затем в публицируемый.

Вы можете объединить некоторые пути в семейство, даже если не способны выразить их словами. И даже если сами вы получили что-то благодаря удаче (включая генетическую удачу), вы можете уменьшить роль слепого случая.

  1. Предупреждения о тупиках, задержавших вас. Это очевидный способ помочь.

  2. Если вы выложите на стол набор мыслей, являющихся продуктом невыразимого навыка, кто-нибудь, читая их, может уловить ритм и сделать скачок к невысказанной вещи стоящей за мыслями. Это потребует намного меньше удачи, чем события, которые изначально и привели вас к приобретению этого навыка.

  3. Есть хорошие аттракторы в пространстве решений – кластеризованные под-решения, которые дают доступ к остальным решениям в аттракторе. Тогда – даже если некоторые мысли не могут быть помещены в слова и требуется удача, чтобы набрести на них изначально – объяснения, как найти дверь, может быть достаточно, чтобы заякорить аттрактор.

  4. Некоторый важный опыт вполне дублируем: например, можно советовать людям, какие книги читать или какие области изучать.

  5. Наконец, прогресс науки в целом может лучше объяснить определённую область, и в некоторый момент вы внезапно поймёте, что именно вы знаете и как правильно высказать свои мысли.

И конечно, коронная фраза этой статьи: это те изменения, которые я надеюсь увидеть в некоторых аспектах человеческой рациональности, навыках, которые были до сих пор непередаваемыми или передаваемыми только от учителя к ученику напрямую. За последние несколько десятилетий мы немало узнали о них, и, я думаю, пора бы попытаться систематизировать полученные сведения.

Я жажду уменьшить роль удачи и таланта в обучении рационалистов высшего разряда.

Перевод: 
Павел Садовников
Оцените качество перевода: 
Средняя оценка: 5 (2 votes)

Не выходи из комнаты

Скотт Александер

Психологи определяют «якорение» как способность раздражителя активировать мозг таким образом, что это влияет на ответы на последующие раздражители. Если это звучит недостаточно зловеще, можете переформулировать это как «любая случайная вещь, произошедшая с вами, может перехватить ваши суждения и личность на следующие несколько минут».

К примеру, вы входите в комнату и замечаете в углу чемодан-«дипломат». Ваш мозг теперь — гордый владелец активированного концепта «дипломат». Он на какое-то время настроен думать о дипломатах, и если уж на то пошло, об офисах, бизнесе, конкуренции и амбициях. На следующие несколько минут вы будете склонны воспринимать все социальные взаимодействия как конкурентные и вести себя соответственно. Эти небольшие сдвиги будут достаточно значительны, чтобы их можно было измерять, например, тем сколько денег Вы готовы поставить в игре «Ультиматум». Если это звучит как странная эзотерическая ерунда типа симпатической магии, я только могу отослать Вас к исследованию Кея, Уиллера, Барга и Росса от 2004 года (English)1.

Мы недавно обсуждали плюсы и минусы веры в Санта-Клауса. Вот, к примеру, один из плюсов: датские дети, которым показали изображение шапки Санта-Клауса, были более склонны делиться конфетами с другим ребенком. Почему? Исследователи предположили, что шапка активирует концепт Санта-Клауса, а Санта-Клаус активирует идеализированный концепт дарения и щедрости. Ребёнок после этого склонен относиться к щедрости положительно. Естественно, тот же эффект может быть использован и в обратном направлении. В том же исследовании дети, которым показали логотип известного магазина игрушек, были менее склонны делиться конфетами.

Но ведь этот эффект ограничен исследованиями в паре психологических лабораторий, так? Он не использовался для чего-нибудь вроде, скажем, изменения результатов крупных выборов?

Я знаю о двух хороших исследованиях эффекта прайминга в политике. В первом (English) субъектам подсознательно2 подсказывали буквенно-числовые комбинации, которые напоминали об атаках 11 сентября (например «911» или «WTC»), или случайные буквенно-цифровые сочетания. После этого их просили оценить деятельность администрации президента Буша. Те, кто видел случайные строки, оценивали Буша на неутешительные 42%. Те, кто подвергся якорению, напоминавшему о войне с террором, давали ему оценку в среднем 75%. Изменение довольно значительное, даже при том что никто из испытуемых не смог сознательно вспомнить какие либо упоминания о терроризме.

Во втором исследовании (English) учёные проанализировали данные из 2000 выборов в штате Аризона и выяснили, что место сбора подписей оказывает заметный эффект на результаты голосования. То есть люди, голосовавшие в школах, были более склонны поддерживать политики, направленные на улучшение образования, те, кто голосовал в церкви, были более склонны поддерживать социально консервативные предложения. Сдвиг предпочтений составляет примерно три процента. Подумайте обо всех выборах, завершившихся с перевесом менее чем в три процента…

Возражение: после не значит вследствие! Религиозные люди, возможно, просто живут ближе к церквям и знают, где находится местная церковь, и так далее. Именно поэтому учёные провели большую работу по регрессионному анализу и поправкам к данным. Результат получился тем же.

Возражение: возможно, поправки были не слишком хорошими! Те же учёные собрали голосовавших в своей лаборатории, показали им фотографии зданий и пригласили участвовать в условном голосовании по образовательным вопросам. Те, кому показывали фотографии школ, были более склонны голосовать за образовательные инициативы, чем те, кто видел обычные здания.

Какие техники эти исследования предлагают рационалистам? Мне хочется сказать, что лучший способ защититься — никогда не покидать своей комнаты, но есть и менее радикальные методы. Во-первых, избегайте сильных раздражителей за несколько минут до принятия важного решения. Все знают о террористических атаках 11 сентября, но эти события влияли только на решения тех людей, которые были подвергнуты действию соответствующих раздражителей прямо перед ответом 3.

Во-вторых, постарайтесь принимать решения в нейтральной обстановке и придерживаться их. Самый простой способ нейтрализовать влияние места голосования — это решить, за кого голосовать, пока ещё не вышел из дома, и потом придерживаться этого решения (кроме случаев, когда вас посещает какое-то внезапное озарение на пути к кабинке для голосования). Вместо того, чтобы не покидать свою комнату, лучше принимать решения в ней и выносить их в готовом виде в наполненный раздражителями мир.

Я не могу не вспомнить о старой традиции рационалистов «очищать свой разум» перед принятием важного решения. Или совет «утро вечера мудренее».

Независимо от того, будете ли вы применять какие нибудь формальные техники, отдых в свободном от раздражителей окружении в течение нескольких минут будет неплохим выбором.

  • 1. Полагаю, симпатическая магия действительно имеет какие-то эффекты наподобие плацебо, именно по вышеприведённой причине.
  • 2. Якорение — один из феноменов, провоцирующих истерию вокруг сублиминальных сообщений в рекламе. Плохая новость состоят в том, что эффект вполне реален: изображение попкорна, незаметно для сознания промелькнувшее на экране, может заставить вас думать о попкорне. Хорошая новость состоит в том, что эффект не так уж опасен: ваше желание купить попкорн будет таким же, как если бы вы увидели обычное изображение попкорна на экране.
  • 3. Очевидное возражение: если вы оцениваете действия администрации Джорджа Буша, было бы странным, если бы вы не вспомнили о террористических атаках. Я не видел исследований, напрямую затрагивающих такой вариант, но возможно, что внешняя ссылка, пришедшая не в ходе собственных рассуждений, активирует вас сильнее, чем если бы вы вспомнили об этих событиях самостоятельно
Перевод: 
BT
Оцените качество перевода: 
Средняя оценка: 4 (5 votes)

Обобщение на одном примере

Скотт Александер

«Все делают общие выводы из одного примера. По крайней мере, я делаю именно так.» — Влад Талтош, «Исола», Стивен Браст

Мой старый преподаватель, Дэвид Берман, любил говорить о том, что он называл «заблуждением о типичном разуме». Иллюстрировал он это следующим примером:

В конце 19 века происходили споры о том, чем является «воображение» — просто речевым оборотом или реальным феноменом. То есть, способны ли люди действительно создавать в уме изображения, которые они наглядно видят, или они просто используют фразу «Я мысленно себе это представил» в качестве метафоры?

Когда я это услышал, моей первой реакцией было «Как, #@$%, можно об этом спорить? Естественно, мы можем представлять вещи в уме. Любой кто так не думает — либо настолько фанатичный бихевиорист, что не доверяет собственному опыту, либо просто безумен». К сожалению, профессор мог привести огромный список достаточно известных людей, отрицавших существование мысленных образов, включая видных людей той эпохи. И всё это до того как бихевиоризм вообще появился.

Спор был разрешён Фрэнсисом Галтоном, удивительным человеком, который помимо прочих достижений изобрёл евгенику, «мудрость толпы» и стандартное отклонение. Галтон давал людям очень детальные опросники и выяснил, что некоторые люди способны пользоваться мысленными образами, а некоторые — нет. Те, кто мог, попросту предполагали что все могут так же, те же кто не мог, предполагали что никто не может представлять вещи в уме. Уверенность людей в своей правоте была столь непоколебима, что временами они придумывали совершенно абсурдные объяснения — например, что другие врут или просто не понимают вопроса. Способность представлять вещи в уме варьировалась в широких пределах: примерно пять процентов опрошенных обладали абсолютным эйдетическим воображением1, и примерно пять процентов были совершенно неспособны формировать изображение в уме2.

Доктор Берман назвал эту тенденцию людей считать, что структура их мышления может быть обобщена для применения к другим людям, «заблуждением о типичном разуме».

Он взялся за эту идею и развил её. Он интерпретировал некоторые отрывки биографии Джорджа Беркли, чтобы показать что у Беркли было эйдетическое воображение, и именно поэтому идея Вселенной как чувственного восприятия так его интересовала. Он также предположил, что опыт сознания и квалиа варьируется так же, как воображение, и что философы, отрицавшие их существование (Райл? Деннет? Бихевиористы?), просто были людьми, чей мозг был лишён возможности легко испытывать квалиа. В целом, он верил, что философия разума полна примеров философов, взявших за образец собственный умственный опыт и строивших теории на его основе, и других философов с другим умственным опытом, критикующих первых и не понимающих, как можно было так ошибиться.

Формально, термин «заблуждение о типичном разуме» можно применять лишь к моделям структуры нашего мышления. Но я находил и множество примеров, связанных скорее с психикой, нежели с разумом: тенденцию обобщать на основе собственной личности и поведения.

К примеру, я — один из самых глубоких интровертов, которых вам, скорее всего, доводилось встречать; более замкнутые люди вообще ни с кем не контактируют. В течении всей школьной жизни я подозревал, что другие дети имеют что-то против меня. Они постоянно хватали меня, когда я был чем-то занят, и пытались втянуть меня в какие-то свои игры с друзьями. Когда я протестовал, они не обращали внимания и говорили мне, что я должен бросить свои бессмысленные занятия и пойти с ними. Я считал их хулиганами, специально пытающимися достать меня, и постоянно придумывал способы спрятаться от них или отпугнуть.

В конце концов я понял, что это было двойным непониманием. Они считали, что я должен быть таким же, как они, и единственное, что мешало мне участвовать в их играх — это стеснительность. Я же считал, что они — такие же, как я, и единственное, что может заставить их отрывать занятого человека от дела, — это желание ему досадить.

Также: я не переношу шум. Если кто-нибудь шумит, я не могу спать, не могу учиться, не могу сконцентрироваться, не могу делать ничего — только биться головой в стену и надеяться, что они прекратят шуметь. Одно время у меня была шумная соседка по дому. Когда я просил её быть потише, она говорила, что я слишком чувствительный, и мне стоит просто отдохнуть. Я не скажу, что был сильно лучше неё: она была жуткой чистюлей и постоянно возмущалась из-за того, что я оставлял вещи где попало. Я же, в свою очередь, говорил, что ей стоит просто отдохнуть, и всё равно незаметно, есть на комоде пыль или нет. Мне не приходило в голову, что эта чистоплотность была для неё так же необходима и безусловна, как тишина для меня, и дело действительно было в разнице способов обработки информации у нас в мозге, а не просто в тараканах у неё в голове.

Фразы «просто тараканы в её голове» и «просто слишком чувствителен» говорят нам о проблеме, связанной с заблуждением о типичной психике, а именно: заблуждение о типичной психике невидимо. Мы склонны преуменьшать роль разной организации мышления в разногласиях, и приписывать проблемы тому, что другой участник конфликта намеренно или случайно действует нам наперекор. Я знаю, что громкий шум серьёзно мучит и изнуряет меня, но когда я говорю об этом с другими, они думают что я просто немного помешан на тишине. Подумайте о тех бедолагах, неспособных создавать визуальные образы, которые считают, что все остальные просто метафорически рассуждают об образах в своём воображении и не собираются отказываться от этих метафор.

Я пишу сюда потому, что именно рациональность может помочь нам справиться с этими проблемами.

Есть определённые доказательства тому, что наш обычный способ взаимодействия с людьми включает в себя что-то вроде моделирования их внутри нашего собственного мозга. Мы думаем о том, как бы мы отреагировали, делаем поправку на различия между людьми, и предполагаем, что другой человек будет действовать именно так. Этот способ взаимодействия очень привлекателен, и часто кажется, будто он должен неплохо работать.

Но если статистика говорит нам, что метод, который работает с вами, необязательно сработает с кем-нибудь другим, то вера своему внутреннему чутью — это именно заблуждение о типичной психике. Надо быть хорошим рационалистом, отбросить внутреннее чутье и следовать за данными.

Я понял это, когда недавно работал школьным учителем. Много книг посвящены методам преподавания, которые нравятся студентам и способствуют лучшему усвоению материала. В свои школьные годы я был, эм-м… подвергнут ряду этих методов, и у меня не осталось никакого желания мучить своих студентов подобным образом. И когда я попробовал разные креативные подходы, которые, как мне казалось, понравились бы мне-ученику… всё окончилось полной неудачей. Что же в конце концов сработало? Методы, близкие к тем, которые я так ненавидел в детстве. Ох. Ладно. Теперь я знаю, почему они так широко используются. А я-то всю жизнь думал, что мои учителя — просто ужасные педагоги, не понимая, что я просто странный статистический выброс, на которого подобные методы не действуют.

Я пишу сюда ещё и потому, что мне кажется эта тема имеет отношение к обсуждению соблазнения, которое проходит в обсуждении Bardic, начатом MBlume. Там есть много не слишком лестных вещей о женщинах, в которые тем не менее верят мужчины. Некоторые считают, что женщины никогда не согласятся на романтические отношения со своими друзьями-мужчинами, предпочитая альфа-самцов, которые к ним в итоге плохо относятся. Другие считают, что женщины сами хотят, чтобы им врали и обманывали их. Я мог бы продолжать, но думаю в том обсуждении всё это и так неплохо представлено.

Тем не менее, от большинства женщин я слышу, что это полная ерунда и женщины вовсе не такие. Что же тут происходит?

Ну, боюсь, я в чём-то верю «соблазнителям». Они вложили много сил и времени в своё «искусство» и, по крайней мере по собственным заявлениям, довольно в этом успешны. И все эти несчастные романтически разочарованные парни, которых я встречаю, не могут полностью ошибаться.

Моя теория состоит в том, что женщины в данном случае становятся жертвой заблуждения о типичной психике. Те женщины, которых я об этом спрашивал — далеко не репрезентативная выборка из всех женщин. Это такие женщины, с которыми стеснительный и довольно замкнутый парень знаком и может поговорить о психологии. Точно так же, женщины, которые пишут в Интернете на эту тему — не репрезентативная выборка. Это женщины с хорошим образованием, у которых есть чётко выраженное мнение по гендерным вопросам и время, чтобы писать о своём мнении в блог.

И, чтобы не показаться шовинистом, то же самое справедливо и для мужчин. Я слышу много плохого о мужчинах (особенно с точки зрения их отношения к романтике), но я не могу сказать такого о себе, своих близких друзьях или о ком-либо, кого я знаю. Но эти мнения настолько распространены и так широко поддерживаются, что у меня есть определённый повод им верить.

Эта статья становится всё менее строгой и всё дальше уходит от темы заблуждения о типичном разуме. Сначала я перешёл к заблуждению о типичной психике, чтобы обсудить материи скорее психологического и социального плана, нежели умственного. А теперь она расширилась так, чтобы включить в себя и другую похожую ошибку — суждение о всех людях по собственному социальному кругу, убеждение в том, что твоё окружение репрезентативно; такое убеждение очень редко оказывается верным3.

Изначально статья называлась «Заблуждение о типичном разуме», но я убрал из названия все намёки и переименовал её в «Обобщение на одном примере», потому что именно это связывает все перечисленные ошибки. Мы непосредственно знаем только один разум, одну психику, один социальный круг, и нам хочется считать их типичными даже в присутствии доказательств обратного.

Для читателей LessWrong это, думаю, особенно важно, так как эти люди, насколько я могу судить, в большинстве своём выпадают из общего ряда на любом из изобретённых психометрических тестов.

  • 1. Эйдетическое воображение, слабо связанное с «фотографической памятью», это способность визуально представлять себе что либо и видеть это так же ясно, ярко и чётко как и при обычном зрении. Пример, который приводил мой профессор, состоит в том что, хотя многие люди могут представить себе тигра, только эйдетик способен сосчитать на нём полоски.
  • 2. Согласно результатам Галтона, людей неспособных формировать визуальные изображения было очень много в математике и науке вообще. Со времён Галтона эти идеи подвергались сомнению, но я не могу найти соответствующих исследований.
  • 3. Пример, который окончательно меня убедил: как вы думаете, какой процент старшеклассников списывают на контрольных и экзаменах? Какой процент воровали что-либо из магазина? Попробуйте предположить ответы на эти вопросы сами, прежде чем смотреть ответ. Кто-то недавно провёл исследования на эту тему, и результаты таковы: две трети списывали и треть воровала в магазинах. Это шокировало меня и всех, кого я знаю — мы не списывали и не воровали в школе, и не знали никого, кто бы так делал. Я целый вечер потратил на то, чтобы найти данные, опровергающие или ставящие под сомнение результаты исследования, и не смог ничего найти.
Оцените качество перевода: 
Средняя оценка: 3.2 (13 votes)

Презумпция типичности — худший аргумент в мире?

Скотт Александер

Некоторое время назад Дэвид Стоув провёл конкурс на самый худший аргумент в мире, но учитывая, что он отметил победителем собственного номинанта, да ещё и поддерживающего его философские взгляды, едва ли процесс отбора можно назвать объективным.

Если он может вот так единолично объявить худший аргумент в мире, то могу и я. Я назначаю самым худшим аргументом в мире приём: «X относится к категории, чей типичный представитель вызывает у нас определённую эмоциональную реакцию. Следовательно такую же эмоциональную реакцию должен вызывать и X, даже если это далеко не самый обычный представитель категории.»

Назовём это «презумпцией типичности». Звучит довольно глупо, когда выражаешь этот принцип так. Да кто вообще так делает?

Но звучит он глупо, только если мы рассуждаем исключительно в терминах категорий и признаков. Когда этот софизм облачают в разговорные слова, он становится столь силён, что большая часть плохих доводов в истории политики, философии и культуры чем-то походит на презумпцию типичности. До них мы ещё доберёмся, а пока рассмотрим простой пример.
Предположим, что кто-то захотел поставить памятник Мартину Лютеру Кингу за его ненасильственное сопротивление расизму. Несогласные могут возразить так: «Но ведь Мартин Лютер Кинг был преступником!»

Любой историк может это подтвердить. Технически, преступник — это человек, нарушивший закон. Как известно, Кинг действовал вопреки закону, запрещающему проведение демонстраций против сегрегации. За это он попал в Бирмингемскую тюрьму, где и написал своё знаменитое письмо.

В этом случае Мартин Лютер Кинг — нетипичный преступник. Классическим примером преступника можно считать, скажем, грабителя. Он гонится за наживой, обманывает ни в чём неповинных людей, подрывает основы общества. Всё это мы осуждаем, и потому, назвав человека преступником, мы автоматически начинаем относиться к нему хуже.

Всё те же несогласные скажут: «Мартин Лютер Кинг — преступник, а так как преступников все ненавидят, ненавидеть нужно и Кинга». Но у Кинга нет тех признаков, которые и заставляют нас плохо относиться к преступникам, а именно лживости, асоциальности и жажды наживы. Следовательно, несмотря на то, что он преступник, нет причин его презирать.

Всё это звучит логично и последовательно, когда подаётся в таком формате. К сожалению, это на сто процентов противоречит инстинктивному побуждению ответить: «Мартин Лютер Кинг? Преступник? Он не был преступником! А ну возьми свои слова обратно!» Вот почему презумпция типичности столь успешна. Как только ты это сказал, ты попался в ловушку. Спор больше не о статуе, а о том, был ли Мартин Лютер Кинг преступником. А так как, технически, преступником он был, спор заранее проигран.

В идеале нужно суметь ответить: «Ну, Мартин Лютер Кинг был хорошим преступником.» Увы, это довольно сомнительный дискуссионный манёвр, его сложно применить в некоторых случаях, где обычно используется вышеописанный софизм.

Теперь я хочу рассмотреть несколько частных случаев. Многие имеют политическую подоплёку 1, за что я извиняюсь, но довольно сложно вычленить плохой аргумент из конкретных споров. Ни один из них не призван намекнуть, что позиция, которую он поддерживает, неверна (на самом деле, я разделяю некоторые из них). Примеры лишь показывают, что некоторые конкретные аргументы ошибочны. Например:

«Аборт — это убийство!» Типичный пример убийства — это Чарльз Мэнсон, врывающийся к тебе домой и стреляющий в тебя. Такой тип убийств плох по многим причинам: ты предпочитаешь не умирать, у тебя есть определённые мечты и надежды, которые погибнут вместе с тобой, твои семья и друзья испытают определённые душевные страдания, а остальное общество будет жить в страхе, пока Мэнсона не поймают. Если определить убийство как «забирание жизни другого человека», тогда, технически, аборт — убийство. Но у него нет многих отрицательных последствий убийства в стиле Чарльза Мэнсона. Хотя аборты можно критиковать по многим другим причинам, фраза «аборт — это убийство» призывает испытывать одинаковые негативные чувства в случае Мэнсона и в случае аборта, игнорируя отсутствие многих характерных черт при последних обстоятельствах. Тех черт, которые изначально и породили эти негативные чувства 2.

«Модификация генов для лечения болезней — это евгеника!» Окей, тут ты меня поймал: если определять евгенику как «попытки улучшить генетический пул человечества», это действительно верно. Но что не так с евгеникой? «Что не так с евгеникой? Гитлер занимался евгеникой! Неэтичные учёные из пятидесятых годов, которые стерилизовали чёрных женщин без их согласия, занимались евгеникой!» А что не так с Гитлером и теми учёными? «Что значит, „что с ними не так“? Гитлер убил миллионы людей! Те учёные тоже разрушили жизни многих.» Разве использование модификации генома для лечения болезней делает что-то подобное? «Ну… не совсем.» Тогда что с ним не так? «Это евгеника

«Эволюционная психология — это сексизм!» Если определять «сексизм» как «веру в различие между полами», это верно по крайней мере про часть эволюционной психологии. Например, принцип Бейтмэна постулирует, что у видов, где женские особи инвестируют больше усилий в воспитание потомства, ритуалы спаривания предполагают, что мужские особи будут ухаживать за женскими чтобы основать пару, а это закладывает фундаментальное психологическое различие между полами. «Отлично, значит, ты признаешь, что это сексизм!» Напомни, почему именно сексизм — это плохо? «Потому что сексизм утверждает, что мужчины лучше женщин, и что у женщин должно быть меньше прав!» Это как-то следует из принципа Бейтмэна? «Ну… не совсем.» Так что же с ним не так? «Это сексизм

Второй, чуть более изящный способ использования презумпции типичности выглядит так: «X принадлежит к категории, чей типичный представитель вызывает некоторую эмоциональную реакцию. Следовательно, мы должны применять ту же эмоциональную реакцию к X, даже если X приносит пользу, которая перевешивает вред.»

«Смертный приговор — это убийство!» Убийство в стиле Чарльза Мэнсона приносит только вред. Поэтому оно вызывает столь сильное отторжение. Сторонники высшей меры наказания считают, что оно позволяет уменьшить преступность или принести другую сопутствующую пользу. Другими словами, они считают, что это «хорошее убийство» 3, как во вводном примере Мартин Лютер Кинг был «хорошим преступником». Но так как обычное убийство — это табу, сложно воспринять выражение «хорошее убийство» всерьёз, ведь даже само упоминание слова «убийство» может вызывать точно такую же негативную реакцию, как и в стандартном случае.

«Позитивная дискриминация — это расизм!» Верно, если вы определяете расизм, как «благоволение определённым людям на основе расовой принадлежности», но, снова, нашу мгновенную негативную реакцию на типичный пример расизма (Ку-Клукс-Клан) нельзя обобщить на этот случай. Перед тем как распространять негативные эмоции на позитивную дискриминацию, следует проверить, обладает ли она всем тем, что заставляет нас ненавидеть Ку Клус Клан (насилие, унижение, отсутствие в обществе разнообразия и зависимости благосостояния человека в первую очередь от его поступков). И даже если мы найдём какие-то из них (подрыв меритократии, например), следует так же доказать, что они не приносят больше пользы, перевешивающей вред.

«Взимание налогов — это воровство Верно, если под воровством вы подразумеваете присвоение чьих-либо денег без согласия человека. Но в отличие от типичного примера воровства (проникновение в чей-либо дом и кража украшений) у налогообложения всё же есть положительные стороны. Воровство обычно несправедливо и наносит ущерб обществу. Первое можно применить и к налогообложению. Второе — нет, если вы согласны, что важнее спонсировать государство, чем оставлять деньги именно у тех людей, которые их заработали. Речь идет об относительной важности обоих пунктов. Следовательно, нельзя просто отказаться от налогообложения из-за того, что воровство как таковое вызывает неприязнь. Вам также придется доказать, что предполагаемые затраты этой формы воровства превышают пользу.

Должен заметить, так как большинство споров всё же представляют собой скорострельный обмен доводами и контрдоводами а ля клуб дебатов, иногда всё же следует отвечать «Налоги — это не воровство!». По крайней мере это лучше, чем сказать: «Налоги — воровство, но хорошее», оставляя для противоборствующей стороны ответ: «По всей видимости, мой достопочтимый оппонент считает, что воровство может быть полезным, мы же будем храбро отстаивать противоположную точку зрения», после чего модератор ударит в гонг, не давая полнее раскрыть точку зрения. Если ты в клубе дебатов, делай что должен. Но если у тебя есть роскошь философской ясности, лучше отринь Тёмное Искусство и взгляни чуть глубже на происходящее.

Бывают ли случаи, когда этот аргумент полезен? Да. Например, в качестве попытки установить на ощупь забор Шеллинга; скажем, принцип, что никто не должен воровать, даже если воровство может быть полезным, потому что тогда будет сложнее вычленить и противостоять действительно плохим видам воровства. Или в качестве попытки зажечь разговор, указывая на потенциальное противоречие: «Замечали ли вы, что налогообложение содержит многие черты типичного воровства? Должно быть вы об этом даже никогда не думали? Почему различаются морально интуитивно правильные поступки в обоих случаях? Не лицемерны ли мы?» Но такое использование довольно ограничено. Как только собеседник ответит: «Да, я думал об этом, но налогообложение отличается от воровства по причинам X, Y и Z», разговор уйдёт вперёд; нет особого смысла настаивать: «Но это воровство

Но в большинстве случаев, я думаю, что это больше аргумент, опирающийся на эмоции, или даже скорее аргумент вида «ты будешь выглядеть глупо, ответив на него». Нельзя просто взять и ответить: «Он хороший преступник», так что если у тебя потенциально склонная к критике аудитория и не так уж много времени для объяснений, ты в ловушке. Тебя только что принудили использовать типичный пример для слова, чтобы отнять самую важную информацию.

Во всех остальных случаях адекватная реакция на попытку убрать значимую информацию это «Нет, спасибо, зачем?» И именно поэтому это самый худший аргумент в мире.

Авторские примечания

Отредактировано, август 2013. После того как получил комментарии и жалобы, я немного отредактировал эту статью. В частности, я попытался убрать жаргон с LessWrong, который отпугнул некоторых незнакомых с сайтом людей, которым просто перешли на статью по ссылке.

Отредактировано, август 2013. Также некоторые читатели жаловались, что это просто неинтересная новая формулировка уже обсуждённых софизмов (каких конкретно непонятно, но чаще всего ссылаются на poisoning the well — «отравление источника»). Меня это не особо задевает, ведь я и не утверждал, что открываю Америку. Многие софизмы перекликаются друг с другом, и разбираться в том, где кончается один и начинается другой — не самое увлекательное занятие. Но хочу отметить, что с самой жалобой я не согласен. «Отравление источника» — это представление двух разных фактов. Например: «Мартин Лютер Кинг был плагиатором… и, кстати, что вы думаете о его взглядах на гражданские права?» Утверждения могут быть не связаны вообще, и обычно это делается осознанно в качестве уловки. В случае презумпции типичности утверждение только одно, но сформулировано оно таким образом, чтобы представлять информацию неверным образом. И его употребление часто несознательно. Приведенный пример про плагиат не подходит под презумпцию типичности. Если вам кажется, что это эссе об обыкновенном «отравлении источника», то либо у этого термина есть незнакомое мне значение, либо вы не понимаете сути статьи.

  • 1. По совету от сообщества я специально включил три типично либеральных примера и три типично консервативных, чтобы избежать спекуляций на тему, в чью сторону ангажирована статья.
  • 2. Следует отличать этот подход от деонтологии, веры в то, что есть некий доказуемый моральный принцип, по которому никогда не следует убивать. Я не думаю, что такое уж важное уточнение, потому что мало кто продумывает эту проблему настолько глубоко, и потому что у меня есть личное и (признаю) спорное мнение, что деонтология большей частью и есть попытка формализовать и оправдать презумпцию типичности.
  • 3. Некоторые люди «решают» эту проблему, говоря, что «убийство» относится только к «отнятию жизни не по закону». Увы, это не более искусно, чем переопределить слово «преступник» как «человек, который нарушает закон и не Мартин Лютер Кинг». Вычленение презумпции типичности — это более полное решение. Например, оно так же покрывает родственный (но большей частью саркастичный) пример, что «тюремное заключение — это похищение».
Перевод: 
Павел Садовников, Екатерина Карпова
Оцените качество перевода: 
Средняя оценка: 4.5 (6 votes)

16 видов полезных предсказаний

Джулия Галеф

Как часто вы делаете предсказания (о будущих событиях или об информации, которая вам пока недоступна)? Если вы регулярно читаете тексты LessWrong, вероятно, вы уже знакомы с идеей, что убеждения должны окупаться, что вы должны уметь сказать: «Вот, что я ожидаю увидеть, если мои убеждения точны, и вот, насколько я в этом уверен», и что вы должны обновлять свои убеждения, в зависимости от того, как сбываются ваши предсказания.

Однако… у меня складывается впечатление, что мало кто из нас регулярно делает предсказания. У меня самой всегда существовало расхождение между тем, насколько полезными, теоретически, я считаю предсказания, и тем, как часто я их делаю.

Не думаю, что дело всего лишь в лени. Я считаю, что на самом деле не так уж просто придумать, какие предсказания можно сделать, чтобы улучшить свою модель тех областей, которые для вас важны.

Здесь мне стоит пояснить, что предсказания могут помочь в достижении двух больших целей:

  1. Улучшить откалиброванность (например, понять, что я права в области X только в 70% случаях, а не в 90%, как я ошибочно считала).
  2. Улучшить точность (например, оказываться правым в вопросах из области Х не в 70% случаях, а в 90%).

Если вы просто хотите получше откалиброваться, то не важно, какие именно предсказания вы будете делать. Поэтому для упражнений на калибровку обычно берутся вопросы с ответами, которые легко найти, например: «Какова высота горы Эверест?» или «Доживёт ли Дон Дрейпер до конца «Безумцев»?» Можете ознакомиться, например, c сайтом predictionbook.com или недавней записью про калибровку. Упражнения на калибровку действительно работают.

Но даже если предсказания по поводу тривиальных вопросов улучшат мои способности к калибровке, они не помогут улучшить мою модель мира. То есть, не помогут мне стать более точной, по крайней мере в важных для меня областях. Если я отвечу на уйму вопросов про высоту гор, возможно, я стану более точной в этой теме, однако, мне это не слишком поможет в жизни.

Поэтому я думаю, что сложность с предсказаниями в следующем: Множество {вопросы, ответы на которые легко узнать} — это малое подмножество всех возможных вопросов. И множество {вопросы, ответы на которые меня волнуют} — тоже малое подмножество всех возможных вопросов. А пересечение этих двух подмножеств таким образом оказывается ещё меньше, и его не так легко найти. В итоге кажется, что предсказания делать довольно трудно, ну или по крайней мере польза от них не стоит затрачиваемых усилий.

Однако, это пересечение не пустое. Нужно лишь применить немного стратегического мышления, чтобы определить, какие из вопросов, на которые можно легко ответить, относятся к интересующим вас областям, или — если подойти к задаче с другой стороны — как выделить проблемы, которые для вас важны, и превратить их в вопросы, ответы на которые можно получить.

Я решила разобраться, что входит в это пересечение. Ниже приводятся 16 видов предсказаний, которые я сама применяю, чтобы улучшить свои суждения о важных для меня вопросах. (Впрочем, я уверена, что таких видов гораздо больше, и надеюсь, что вы поделитесь и своими.)

  1. Предсказывайте, сколько у вас уйдёт времени на текущую задачу. Очень важный вопрос, учитывая, как часто встречается ошибка планирования и какие от неё бывают последствия.
    Примеры: «Сколько я буду писать эту запись в блог?», «Когда наша компания станет приносить прибыль?»

  2. Предсказывайте, как вы будете себя чувствовать в предстоящих ситуациях. Аффективное прогнозирование — наша способность предсказывать, как мы будем себя чувствовать — часто даёт сбои, и об этом хорошо известно.
    Примеры: «Насколько мне понравится вечеринка?», «Почувствую ли я себя лучше, если выйду из дома?», «Буду ли я по-прежнему расстраиваться через две недели, если не получу эту работу?»

  3. Предсказывайте, насколько успешно вы справитесь с задачей.
    Такие предсказания помогают мне замечать, когда я безуспешно пытаюсь повторять один и тот же подход. Сделанное предсказание даже само по себе может намекнуть, что мне нужен план получше.
    Примеры: «Буду ли я придерживаться моего плана тренировок хотя бы месяц?», «Как пройдёт событие, которое я организовываю?», «Сколько я сделаю за сегодня?», «Смогу ли я убедить Боба в том, что моя точка зрения по обсуждаемому вопросу верна?»

  4. Предсказывайте, как ваша аудитория отреагирует на конкретную запись в социальных сетях (фейсбуке, твиттере, тумблере, блоге и так далее).
    Это поможет вам лучше разбираться, как создавать успешный контент, а также лучше понимать взгляды на мир ваших друзей (или читателей).
    Примеры: «Наберёт ли это видео необычно высокое количество лайков?», «Приведёт ли ссылка на эту статью к ругани в комментариях?»

  5. Когда вы пробуете новую занятие или новый способ что-нибудь делать, предсказывайте, как много вы получите пользы благодаря этому.
    Я заметила, что в этой области я часто ошибаюсь по обоим направлениям. По поводу некоторых «лайфхаков» мне кажется, что они решат все мои проблемы (а на самом деле такое случается редко). И наоборот, я часто с излишним скепсисом отношусь к занятиям, которые находятся вне моей зоны комфорта, и часто оказываюсь приятно удивлена, когда я всё-таки их пробую.
    Примеры: «Насколько „помодорки“ увеличат мою продуктивность?», «Насколько мне понравится танцевать свинг?»

  6. Когда вы что-то покупаете, предсказывайте, как много вы получите от этого пользы.
    Из исследований по поводу денег и счастья можно сделать два основных вывода: 1) в общем случае на деньги нельзя купить счастье; 2) есть уйма случаев, когда первый пункт не работает. Таким образом, судя по всему, в этой области есть большой потенциал для развития своих способностей к предсказанию, и в результате можно научиться тратить деньги более эффективно, чем люди в среднем.
    Примеры: «Сколько я буду носить эти новые туфли?», «Как часто я буду использовать мою клубную карту?», «Буду ли я думать через два месяца, что действительно стоило перекрасить кухню?», «Буду ли я через два месяца по-прежнему получать удовольствие от новой машины?»

  7. Предсказывайте, как другие люди ответят на вопросы о себе.
    Я часто замечаю, что делаю предположения о других людях, и мне нравится проверять эти предположения. В идеальном случае я получаю интересную обратную связь и о самом предмете вопроса, и о моей модели человека в целом.
    Примеры: «Тебя не беспокоит, что наши встречи длятся дольше, чем запланировано?», «Ты считал себя популярным, когда учился в старших классах?», «Как по-твоему, нормально ли лгать, чтобы защитить чьи-нибудь чувства?»

  8. Предсказывайте, насколько вы сможете продвинуться в решении задачи за пять минут.
    У меня часто появляется впечатление, что задача, с которой я столкнулась, — очень сложная, или что я уже думала над ней и рассмотрела все очевидные варианты решения. Однако, когда я решаю (или кто-то меня подталкивает) устроить пятиминутный мозговой штурм, к моему удивлению, у меня появляется новая многообещающая идея.
    Пример: «Мне кажется, будто я перепробовала уже всё, чтобы решить свои проблемы со сном, и ничего не помогает. Если я прямо сейчас потрачу пять минут на размышления, смогу ли я придумать хотя бы одну новую идею, которую имело бы смысл попробовать?»

  9. Предсказывайте, подтвердят ли данные из вашей памяти ваше впечатление.
    Память нас нередко подводит, и я регулярно удивляюсь, как часто я не в состоянии вспомнить конкретные примеры, которые подтвердили бы то, в чём я достаточно сильно уверена (или как часто я вспоминаю конкретные примеры, которые на самом деле противоречат моему впечатлению).
    Пример: «У меня есть впечатление, будто люди, которые бросают академическую науку, счастливы, что они это сделали. Если я попробую вспомнить нескольких людей, которые бросили академическую науку, и оценить, насколько они счастливы от этого, какое получится соотношение счастливых и несчастливых?»
    «Кажется, что Боб никогда не слушает мои советы. Если я попробую вспомнить примеры, когда Боб последовал моему совету, сколько у меня получится вспомнить?»

  10. Выбирайте один экспертный источник и предсказывайте, как он ответит на вопрос.
    Это быстрый способ проверить утверждение или разрешить спор.
    Примеры: «Поддержит ли Cochrane Medical утверждение, что витамин D помогает росту волос?», «Согласится ли Боб — управлявший несколькими компаниями, похожими на нашу, — что наша стартовая заработная плата слишком мала?»

  11. Когда вы знакомитесь с новым человеком, фиксируйте своё первое впечатление о нём. Предсказывайте, насколько вероятно, что, когда вы узнаете этого человека получше, вы посчитаете своё первое впечатление достаточно точным.
    Выпускница CFAR Лорен Ли предложила мне свою вариацию на эту тему: делайте предсказание о человеке до встречи с ним на основании тех данных, которые у вас уже есть.
    Примеры: «Я знаю о парне, с которым собираюсь встретиться, только то, что он банкир. Я в средней степени уверена, что он окажется самоуверенным.», «Судя по моему единственному диалогу с Лизой, она очень проницательна. Я предсказываю, что у меня сохранится это впечатление, когда я узнаю её получше.»

  12. Предсказывайте, как ваши друзья в фейсбуке ответят на опрос.
    Пример: Я часто задаю в фейсбуке вопросы по поводу этикета. Например, недавно я устроила опрос: «Если беседа идёт как-то неловко, для вас будет лучше или хуже, если собеседник это как-то прокомментирует?» Я была достаточно уверена, что большинство людей ответит «хуже», и ошиблась.

  13. Предсказывайте, насколько правильно вы поняли позицию собеседника. Для проверки пробуйте сформулировать эту позицию своими словами и пересказывайте собеседнику.
    Иллюзия прозрачности очень опасна.
    Примеры: «Ты утверждаешь, что проводить воркшоп в следующем месяце — плохая идея. Полагаю, ты так думаешь, потому что у нас не будет времени на рекламу, верно?»
    «Я знаю, что ты считаешь, что поедание мяса не является проблемой с точки зрения морали. Это потому, что ты думаешь, что животные не страдают?»

  14. Когда вы с кем-то не согласны, предсказывайте, насколько вероятно, что сторонний наблюдатель займёт вашу позицию, если ему объяснить суть вопроса.
    Для лучших результатов, когда вы объясняете суть вопроса, не раскрывайте, кто на какой стороне находится.
    Пример: «Сегодня на работе я и Боб поспорили, стоит ли стажёрам присутствовать на собеседованиях. Что ты думаешь?»

  15. Предсказывайте, окажется ли удивительная для вас новость правдой.
    Это хороший способ откалибровать свой бредодетектор и в целом улучшить ваши модели мира, которые использует ваш здравый смысл.
    Примеры: «Этот заголовок утверждает, что какие-то учёные загрузили в компьютер мозг червя. После того, как я прочту статью, посчитаю ли я, что заголовок точно передаёт смысл реально случившегося?»
    «Это вирусное видео утверждает, что изображает незнакомых людей, которых уговорили поцеловаться. Окажется ли оно постановочным?»

  16. Предсказывайте, найдётся ли в результате быстрого поиска в Сети заслуживающий доверия источник, подтверждающий обсуждаемое утверждение.
    Пример: «Боб утверждает, что после того, как он надевает часы, они вскоре останавливаются. Если я потрачу пару минут на поиск в Сети, найду ли я хоть один заслуживающий доверия источник, утверждающий, что такое явление на самом деле существует?»

И напоследок выскажу ещё одну мысль о том, как извлечь максимум пользы из предсказаний.

Рационалисты часто обращают внимание на важность объективных метрик. А, как вы могли заметить, большинство моих примеров не удовлетворяет этому критерию. Например, «Предсказывайте, случится ли ругань в комментариях? Не существует объективного способа определить, засчитывается ли происходящее в комментариях как „ругань“ или нет…» Или, «Предсказывайте, смогу ли я найти заслуживающие доверия источники, поддерживающие X? А кто скажет, что такое „заслуживающий доверия источник“ и что засчитывается за „поддержку“ X?»

Безусловно, при прочих равных условиях, следует предпочитать объективные метрики. Однако, не всегда прочие условия равны. Субъективные метрики гораздо проще придумать, и они вовсе не бесполезны. В подавляющем большинстве случаев, когда вы видите результаты, вы можете достаточно ясно понять, оказалось ваше предсказание верным или нет — пусть даже вы не сформулировали заранее точные, объективно проверяемые критерии успеха. Обычно здравый смысл говорит, что вы получили «да» или «нет». Иногда будет получаться «э-э… в некотором роде», однако, если вы уверено предсказывали, что результат будет ясно показывать в сторону «да» или «нет», получить подобный сюрприз тоже достаточно интересно.

Также скажу, что я обычно не присваиваю своим предсказаниям вероятности в численной форме. Я просто отмечаю, что моя уверенность попадает в качественные границы «очень уверена», «достаточно уверена», «слабо уверена» (что примерно соответствует вероятностям 90%/75%/60%, если я вынуждена всё-таки переходить к числам).

Возможно, вы сможете извлечь дополнительную пользу, если вы будете не просто полагаться на субъективные впечатления, а станете записывать уровни уверенности в числах и придумывать объективные метрики, которые нельзя обмануть. Однако, по-моему, в большинстве случаев эта дополнительная польза не перевесит того, что предсказания станут для вас достаточно тяжёлой задачей. Другими словами, не позволяйте, чтобы лучшее стало врагом хорошего. Или совсем другими словами: самая большая проблема с вашими предсказаниями прямо сейчас заключается в том, что их не существует.

Перевод: 
Alaric
Оцените качество перевода: 
Средняя оценка: 3.8 (17 votes)

Используйте слово "рационально", только если от него нельзя избавиться

Элиезер Юдковский

Почти всегда, если в предложении используется слово «истина», его можно убрать, применив формулу Тарского. Например, если кто-то говорит: «Я убеждён, что небо синее, и это истина!», то это можно перефразировать как: «Я убеждён, что небо синее, и небо синее». Для любого «Предложение Х — истина» можно просто сказать Х и передать ту же самую информацию о своих убеждениях. Просто говорите о территории, которой карта предположительно соответствует, а не о карте.

Когда слово «истина» убрать нельзя? Когда вы говорите об общих принципах, касающихся соответствия между картой и территорией. Например: «Истинные теории с большей вероятностью дадут верные предсказания об исходах эксперимента». В этом предложении невозможно избавиться от слова «истинные», потому что здесь речь идёт о соответствии между картой и территорией в общем случае.

Аналогично можно убрать слово «рационально» из почти всех предложений, где оно используется. «Рационально считать, что небо синее», «Истина в том, что небо синее» и «Небо синее» передают абсолютно одинаковую информацию о цвете неба с вашей точки зрения. Не больше, не меньше.

Когда из предложения нельзя убрать слово «рационально»?

Когда вы формулируете общие принципы для алгоритмов мышления, которые приводят к соответствию между картой и территорией (эпистемическая рациональность) или направляют будущее туда, куда вы хотите (инструментальная рациональность). Можно убрать слово «рационально» из предложения «Рационально считать, что небо синее». Нельзя убрать слово «рационально» из предложения «Эпистемически рационально повышать свою уверенность в гипотезах, которые делают успешные предсказания». Табуировать это слово, конечно, можно, но вы получите что-то вроде: «Чтобы увеличить соответствие между картой и территорией, следуйте алгоритму, который требует увеличивать уверенность в гипотезе, которая делает успешные предсказания». Можно избавиться от слова, но не получится избавиться от самого понятия, не изменив смысла предложения, поскольку речь фактически идёт об универсальных алгоритмах мышления, которые строят соответствие между картой и территорией.

Никогда не следует использовать слово «рационально» без необходимости, то есть, если мы не обсуждаем алгоритмы мышления как алгоритмы.

Если вы хотите поговорить о том, как применить рациональность, чтобы купить самую крутую машину, но в первую очередь собираетесь рассуждать о машинах, а не о том, какие алгоритмы мышления самые лучшие, назовите свой пост «Как лучше покупать машину», а не «Как рационально покупать машину».

Спасибо за то, что соблюдаете технику безопасности.

Перевод: 
Alaric
Оцените качество перевода: 
Средняя оценка: 4.8 (6 votes)

Лицензия героя

Элиезер Юдковский

Я полагаю, что большинство читателей знают меня либо как сооснователя MIRI и автора множества исходных задач в области соответствия ИИ1, либо как автора «Гарри Поттера и методов рационального мышления», популярного фанфика по Гарри Поттеру. В книге «Неадекватное равновесие»2 я рассказал, как я применяю в жизни описанные там идеи. Возможно, многим читателям интересно, как эти идеи связаны с моей работой в области ИИ и моими художественными произведениями. И я подумал, что здесь действительно можно найти интересные примеры неадекватности, используемости и скромности.

Нижеприведённый диалог — никогда не происходивший — дополняет «Неадекватное равновесие»3. Большей частью он написан в 2014 году, а в 2017 я его отредактировал и выложил в интернет.

Выдающиеся результаты и взгляд извне

(2010 год. Элиезер-2010 сидит на скамейке, уткнувшись в ноутбук, в несуществующем парке в Редвуд-Сити, Калифорния. К нему подходит Человек.)

Человек: Простите, вы случайно не Элиезер Юдковский?

Элиезер-2010: Мне принадлежит эта сомнительная честь.

Человек: Меня зовут Пат. Пат Модесто4. Мы не встречались, но я читал вас в интернете. Над чем вы работаете сейчас?

Элиезер-2010: Пытаюсь написать научно-популярную книгу по рациональности. Мои записи в блоге на Overcoming Bias5, в смысле на Less Wrong, довольно длинны, нуждаются в редактуре, и, хотя они как-то повлияли на мир, мне кажется, что книгу по рациональности прочитало бы больше людей и она повлияла бы на мир сильнее.

Пат: Как интересно! Вы не возражаете, если я загляну в ваш экран и…

Элиезер (закрывая экран): Возражаю!

Пат: Простите. Гм… То, что я мельком заметил, как по мне, не слишком похоже на научно-популярную книгу по рациональности.

Элиезер: Ну, да, работа над этой книгой шла очень медленно. Поэтому я решил попробовать в свободные часы писать что-нибудь другое, чтобы разобраться: у меня проблемы со скоростью написания вообще или дело именно в этой конкретной книге.

Пат: Вообще-то, я увидел нечто похожее на фанфик по Гарри Поттеру. По-моему, я заметил слова «Гарри» и «Гермиона» в сочетаниях, не похожих на те, что были у Джоан Роулинг.

Элиезер: Да, и вроде бы у меня получается писать его довольно быстро. К тому же, кажется, у меня на него уходит меньше сил, чем обычно.

(Загадочный незнакомец в маске, наблюдающий за этой сценой, завистливо вздыхает.)

Элиезер: Теперь мне надо разобраться, почему моя основная книга пишется настолько медленнее и требует гораздо больше сил… Я бы мог написать столько книг, если бы всегда писал с такой же скоростью, с какой пишу этот фанфик…

Пат: Простите, если мой вопрос покажется глупым. Не хочу сказать, что фанфики по Гарри Поттеру — это плохо. Я и сам в своё время их читал. Однако, насколько я понимаю, ваша философия заключается в том, что мир уже горит и с этим нужно что-то делать. Если это правда, почему вы пишете фанфик по Гарри Поттеру, а не занимаетесь чем-то ещё?

Элиезер: Я занимаюсь чем-то ещё. Я пишу научно-популярную книгу по рациональности. Просто сейчас у меня свободное время.

Пат: Понятно. Но меня интересует, почему в свободное время вы занимаетесь именно этим.

Элиезер: Потому что сил мне не хватает гораздо больше, чем времени. Этот фанфик мне обходится довольно дёшево, поэтому его я могу создавать быстро.

Пат: Я пытаюсь понять, почему вы пишете фанфик по Гарри Поттеру, даже при том, что вам это довольно легко даётся. Разве что действительно дело исключительно в том, что вам нужно понаблюдать, как у вас получается писать быстро, чтобы понять, как быстро писать другие вещи. В этом случае я бы спросил, как вы оцениваете вероятность, что вам действительно удастся это понять. Просто я думаю, что вы могли бы использовать свободное время более эффективно.

Элиезер: Я не уверен, что вы правильно понимаете идею «свободного времени». Существуют причины, почему оно необходимо, и эти причины не сводятся к тому, что люди ленивы. Да, Анне Саломон6 и Люку Мюльхаузеру7 свободное время не нужно, но я не уверен, что их точно можно назвать людьми.

(Загадочный незнакомец в маске вступает в разговор.)

Незнакомец: Прошу прощения.

Элиезер: Вы кто такой?

Незнакомец: Вряд ли это важно.

Пат: И почему вы в маске?

Незнакомец: Ну, я точно не версия Элиезера из 2014 года, тайно вернувшаяся в прошлое, если вы думаете об этом.

Пат: Справедливости ради, об этом я вовсе не думал.

Незнакомец: Пат и Элиезер-2010! По-моему, вы не понимаете друг друга. Разногласие между вами гораздо больше, чем вам кажется.

Пат и Элиезер: Продолжайте.

Незнакомец: Если в феврале 2010 года спросить Элиезера, почему он пишет «Гарри Поттера и методы рационального мышления», он, конечно же, ответит, что, по его предположению, написание «Методов» повлияет к лучшему на его попытки написать «Искусство рациональности» — его предполагаемое руководство по освоению рациональности. Это вызвано тем, что у нас — в смысле, у Элиезера — есть эвристика «планируй главное», которая подразумевает, что любая деятельность оправдана в той мере, в какой она положительно влияет на «нормальный» вариант будущего, а не на маловероятные побочные сценарии.

Элиезер: Конечно.

Пат: Подождите. Разве не вся ваша жизнь…

Элиезер: Нет.

Незнакомец: У Элиезера-2010 также есть эвристика, которую можно сформулировать как: «Деятельность имеет смысл, лишь если ты можешь достичь в ней множества Парето». Другими словами, если Элиезер-2010 ожидает, что работа кого-то другого будет во всех отношениях лучше, чем его работа, ему не придёт в голову тратить на это время. Элиезер-2010 считает, что он способен делать то, что попадёт во множество Парето, поэтому зачем ему вообще заниматься чем-то иным? Поэтому, хоть в свободное время, хоть нет, Элиезер не стал бы писать этот фанфик, если бы считал, что какой-нибудь другой — или даже какая-нибудь другая книга — окажется лучше во всех отношениях.

Пат: Гм…

Элиезер: Я бы не стал использовать именно такие слова.

Незнакомец: Да, потому что если бы вы сказали это вслух, люди бы начали многократно повторять слово «самонадеянность», а вы бы не до конца понимали, почему они так себя ведут. Поэтому вы красиво играете словами и пытаетесь уводить разговор от этой темы.

Пат: Это правда?

Элиезер: Мне кажется, будто незнакомец в маске хочет использовать эффект Барнума. В смысле, большинство людей, если их спрашивать поодиночке, признали бы, что это описание подходит и к ним.

Пат: …… Я совершенно не считаю, что ко мне подходит такое описание.

Элиезер: Я всерьёз удивлюсь, если таких окажется меньше десяти процентов от всего населения.

Незнакомец: Элиезер, за следующие четыре года вы научитесь немного лучше понимать эмоции людей, связанные со статусом. Впрочем, всерьёз их учитывать вы всё равно будете лишь в тех случаях, когда вам нужно будет донести точку зрения, которую невозможно донести никак иначе, то есть, увы, очень часто, поскольку эпистемология скромности слишком быстро распространяется в вашем сообществе. В любом случае, Пат, факт, что Элиезер-2010 тратит очень много времени на «Гарри Поттера и методы рационального мышления» действительно позволяет вам сделать вывод, что Элиезер-2010 считает, что «Методы» могут достичь значительного успеха в каких-то важных для него аспектах. Что они выйдут за границы сделанного кем угодно другим. Хотя, возможно, он в этом и не признается до того, как реально достигнет успеха.

Элиезер: Ну, да, да, так и есть. Меня расстраивает, как в художественной литературе показывают «интеллектуальных» и/или «рациональных» персонажей. И я хочу увидеть правильных «рациональных» персонажей, даже если мне придётся написать про них историю самому. Я чётко представляю, что именно другие писатели делают не так, и как сделать лучше. Если бы я этого не представлял, перспектива написать «Методы» меня бы интересовала гораздо меньше.

Незнакомец (в сторону): Наше мировоззрение настолько заражено неадекватностью цивилизации, что мы почти никогда её не замечаем. По этому поводу даже не стоит переживать, ведь, так уж получилось, мы в самом деле живём в неадекватной цивилизации.

Элиезер (по-прежнему обращаясь к Пату): Однако, я не говорю о том, какими могут получиться «Методы», не только из скромности. Я действительно не уверен, что я смогу сделать «Методы» такими, какими, с моей точки зрения, они могут стать. Я не хочу обещать больше, чем могу сделать. И поскольку нужно планировать главное, я пробую писать «Методы», исключительно чтобы выяснить, могу ли я писать быстрее.

Незнакомец (в сторону): Задним числом я несколько сомневаюсь, что дело именно в этом, хотя рассуждения вполне разумны.

Пат: Можете рассказать больше о том, почему вы думаете, что в вашей истории о Гарри Поттере получатся чрезвычайно «интеллектуальные» персонажи?

Элиезер: А нужно? В литературе я должен показывать, а не рассказывать. Само собой, мои персонажи не будут учить пятьдесят семь языков, потому что они суперумные. Я считаю, что большинство попыток написать «интеллектуальных персонажей» упираются в их поверхностные качества, вроде количества языков, которые они знают, или сводятся к созданию стереотипных поверхностных черт, которые автор видел у других персонажей-«гениев», например, ощущение чуждости. В кино такие персонажи говорят с британским акцентом. Кажется, подавляющее большинство авторов не в курсе про рассуждение Винджа, почему сложно создать персонажа, который окажется умнее автора. Например, чтобы знать, как в шахматной партии походит прекрасный шахматист, нужно играть в шахматы не хуже него. И по этой же причине тяжело написать персонажа, который окажется гораздо рациональнее автора.

По-моему, понятия «интеллект» и «рациональность» у типичных персонажей не имеет ничего общего с умением делать правильный выбор или делать хорошие предсказания. С моей точки зрения, в литературе просто нет идеи персонажа, который достигает успехов в оптимизации своего мышления, отличающейся от идеи персонажа, который побеждает, просто потому что у него в мозги встроен волшебный меч. Кроме того, по-моему, большинство авторов персонажей-«гениев» не уважают их предполагаемый гений настолько, чтобы всерьёз поставить себя на их место — всерьёз попытаться почувствовать, на что похожа их внутренняя жизнь, и подумать хотя бы чуть дальше первого пришедшего в голову клише. Автор просто ставит себя выше «гения», наделяет гения каким-то вариантом очевидной глупости, позволяющей автору сохранять эмоциональную дистанцию…

Незнакомец (в сторону): Подавляющее большинство авторов с трудом могут вообразить персонажа, который по-настоящему умнее автора. Подавляющее большинство футуристов с трудом могут представить ИИ, который по-настоящему умнее человека. И действительно, люди часто пренебрегают гипотезой, что чрезвычайно умный человек уж точно примет во внимание факторы, которые они сами считают очевидными. Однако, когда речь идёт о достаточно компетентных личностях, принимающих решения исходя из собственных знаний и компетенций (я здесь не рассматриваю поведение бюрократических комиссий или коллективное поведение в произвольной области), часто стоит задаваться вопросом, не могут ли они оказаться умнее, чем вы думаете, и нет ли у их действий оправданий лучше, чем те, что приходят вам на ум в первую очередь.

Пат: Хорошо, предположим, вы сможете написать книгу, где персонажи будут демонстрировать интеллект по-настоящему. Как именно это поможет спасти мир?

Элиезер: Почему вы делаете акцент на слове «интеллект», а не на слове «рациональность»? Впрочем, отвечая на ваш вопрос: научно-популярная литература передаёт факты, художественная литература передаёт опыт. За два предыдущих года блоггерства8 я смог передать людям явно недостаточное количество мыслительных навыков, и это меня тревожит. Я надеюсь, что книга, где описывается внутренний опыт персонажа, пытающегося быть рациональным, сообщит людям то, что я не смогу настолько легко сообщить своими эссе в блоге.

Незнакомец: (смеётся).

Элиезер: В чём дело, Незнакомец в маске?

Незнакомец: Просто… вы чересчур скромны.

Элиезер: Вы это мне?

Незнакомец: Там, где я живу сейчас, это довольно очевидно. Вы так тщательно не говорите о своих надеждах относительно «Гарри Поттера и методов рационального мышления», потому что понимаете, что люди вроде Пата не поверят, что это возможно, и вы не сможете убедить их в обратном.

Пат: Этот парень — странный.

Элиезер (пожимает плечами): Это не редкость.

Пат: Давайте не обращать на него внимание. Вы сказали, что сейчас тратите много времени…

Элиезер: Но удивительно мало сил.

Незнакомец: Там, откуда я пришёл, мы бы сказали, что вы тратите удивительно мало «ложек».

Пат: …тем не менее, вы тратите много времени на создание истории о Гарри Поттере с, как вы надеетесь, исключительно рациональными персонажами. Что приведёт к тому, что ваши читатели впитают опыт, как быть рациональными. Что, по-вашему, окажется важным для спасения мира.

Элиезер: М-м, примерно так.

Пат: Как вы думаете, что взгляд извне сказал бы…

Элиезер: О, кстати, я вспомнил, что мне пора бежать. (Начинает закрывать ноутбук.)

Незнакомец: Подождите. Останьтесь, пожалуйста. Вы мне поверите, что это важно?

Элиезер: …Хорошо. Кажется, мне редко что-нибудь советовали незнакомцы в масках, поэтому в этот раз я попробую послушаться и посмотрю, что получится.

Пат: Что я сказал не так?

Незнакомец: Вы сказали, что этот разговор ни к чему полезному не приведёт.

Элиезер: Я бы не был столь радикален. Впрочем, да, по моему опыту, люди, которые используют словосочетание «взгляд извне», обычно не дают полезных советов, и на разговор с ними уходит много сил — как вы сказали, «ложек»? Но раз уж я поверил незнакомцу в маске на слово, я попробую продолжить. Что, по-вашему, говорит о проекте «Методы рационального мышления» взгляд извне?

Пат: Ну, я как раз собирался спросить вас, что удаётся передать читателям средней истории с рациональным персонажем.

Элиезер: Так я не пытаюсь написать среднюю историю. Весь смысл в том, что я считаю, что средняя история с «рациональным» персонажем никуда не годится.

Пат: То есть, вы считаете, что ваши персонажи будут рациональны по-настоящему. Однако, возможно, другие авторы тоже думают, что их персонажи рациональны…

Элиезер (шёпотом Незнакомцу в маске): Можно я уйду?

Незнакомец: Нет. Серьёзно, это важно.

Элиезер: Ладно. Пат, ваша предпосылка ошибочна. Гипотетических авторов, которые всерьёз стараются создать рациональных персонажей, не существует. Авторы не понимают, что для создания рациональных персонажей, нужно прикладывать усилия, и всего лишь изображают очередного «соломенного вулканца», практически не думая в процессе.

Незнакомец: Я бы это перефразировал так: создание рациональных персонажей — не та область, в которую наша цивилизация вкладывает достаточные усилия, и поэтому не стоит ожидать там адекватности.

Пат: Послушайте, я не спорю с тем, что наверняка вы напишете персонажей более рациональных, чем удаются этим средним авторам. Я просто считаю, что важно помнить, что всегда неправота изнутри ощущается так же, как правота.

Незнакомец: Элиезер, пожалуйста, объясните Пату, что вы думаете про это замечание.

Элиезер: На самом деле вы далеко не всегда помните, что «неправота изнутри ощущается так же, как правота». Вы вспоминаете об этом в исключительно избирательных случаях, когда вы уже скептично относитесь к чужим доводам. Просто кажется, будто вы вспоминаете об этом в каждом подходящем случае, поскольку, в конце концов, всякий раз, когда вы считаете нужным подумать об этом, вы об этом думаете. Вы просто использовали абсолютно универсальный контраргумент, а такие аргументы с точки зрения байесианства не позволяют различить случаи, когда мы ошибаемся, и случаи, когда мы правы. Фраза «неправота изнутри ощущается так же, как правота» похожа на фразу «но у меня есть вера». Её одинаково легко произнести как в ситуации, когда ваш собеседник прав, так и в ситуации, когда он ошибается.

Незнакомец: На определённой стадии когнитивного развития людям нужно задумываться о том, почему карта — это не территория. Особенно если им раньше никогда не приходило в голову, как ощущается идея о том, что вселенная в их воображении на самом деле построенная их мозгом реконструкция настоящей вселенной. Просто Элиезер прошёл эту стадию, прочитав примерно в одиннадцать лет книгу С. И. Хаякавы «Язык в мысли и действии»9. Когда умение различать карту и территорию полностью усвоено, отсылка к их разнице при обсуждении идей, которые вам не нравятся, это (абсолютно универсальный) мотивированный скептицизм.

Пат: Хорошо, однако есть исследование, показывающее полезность метода «предсказание на основании референтного класса»…

Элиезер: Я в курсе.

Пат: И мне интересно, какое можно сделать предсказание на основании референтного класса о ваших попытках принести пользу миру с помощью фанфика по Гарри Поттеру?

Элиезер (Незнакомцу в маске): Пожалуйста, можно я всё-таки убегу?

Незнакомец: Нет.

Элиезер (вздыхая): Хорошо, допустим, за данным вопросом кроется нечто большее, чем обычный скепсис. Если вспоминать книги, в которых, с моей точки зрения, хорошо написаны рациональные персонажи, то у них довольно неплохие результаты. Когда я был ребёнком, на меня сильно повлиял «Мир Нуль-А» Альфреда ван Вогта. «Нуль-А» не просто научил меня фразе «карта - не территория». Оттуда я почерпнул идею, что люди, которые применяют рациональные техники, должны быть крутыми, а если они не круты, значит, они делают что-то не так. Уйма учёных и инженеров выросли на одах, в которых Роберт Хайнлайн восхвалял науку и инженерию. Да, я знаю, что Хайнлайн не идеален, но тем не менее.

Незнакомец: Интересно, в каких взрослых вырастут умные дети, читающие в двенадцать лет «Гарри Поттера и методы рационального мышления»?..

Пат: Но ведь книги ван Вогта про Нуль-А — это исключительный пример книг с персонажами-рационалистами. Мой первый вопрос: почему вы считаете, что вы сможете написать что-то подобное? А второй вопрос: даже если ваш рациональный персонаж будет вдохновлять людей не хуже персонажей Хайнлайна, насколько он повлияет на среднего читателя, и как много людей в лучшем случае, по-вашему, прочтут ваш фанфик по Гарри Поттеру?

Элиезер: Скажу честно, по-моему, вы задаёте неправильные вопросы. В смысле, когда я решил писать «Методы», я ни о чём подобном не думал.

Незнакомец (в сторону): Кстати, это правда. В своё время мне не приходил в голову ни один из этих вопросов. Сейчас я их задаю исключительно потому, что я пишу персонажа Пата Модесто. С моей точки зрения, наличие в голове голоса кого-то вроде Пата Модесто — непродуктивно, поэтому мне не приходят спонтанные мысли, что бы он сказал.

Элиезер: С моей точки зрения, чтобы создать как можно лучшую книгу, имеет смысл задаться вопросом, что в плане рациональных персонажей делают неправильно другие авторы, и что правильно сделал Альфред ван Вогт. Я не понимаю, зачем мне нервничать, смогу ли я достичь большего, чем ван Вогт, который мог опереться лишь на работу Альфреда Коржибски, написанную за десятилетия до рождения Даниела Канемана10. Если честно, я всерьёз полагаю, что я уже вышел за пределы так называемого референтного класса, в который вы собираетесь меня запихнуть…

Пат: Что?! Как вообще можно «выйти за пределы» референтного класса?

Элиезер: …что, в свою очередь не гарантирует мне успеха, потому что оказаться за пределами референтного класса — не то же самое, что оказаться лучше него. В смысле, я не делаю выводов на основании этого референтного класса о себе. Я просто попробую написать эту книгу и посмотрю, что получится.

Пат: Вы считаете, что вы автоматически лучше любого автора, который когда-либо пытался написать рациональных персонажей?

Элиезер: Нет! Послушайте, моя голова организована так, что я о таких вещах просто не думаю. В моей голове есть лишь книга, и я задаю себе вопрос, смогу ли я воплотить её в реальность. Я строю в голове модель книги, а не модель себя.

Пат: Но если книга в вашей голове подразумевает, что уровень вашего мастерства относительно среднего автора попадает в очень высокий процентиль, то, как по мне, вполне разумно спросить, почему вы уже считаете, что можете на этот процентиль претендовать.

Незнакомец: Давайте я ещё немного вброшу. Элиезер-2010, предположим, я скажу вам, что в начале 2014 года «Методы» достигли примерно следующего уровня. Во-первых, в них примерно полмиллиона слов, но книга пока не закончена…

Элиезер: Чёрт. Это печально. Значит, я серьёзно замедлился и уж точно не научился всегда писать так быстро, как сейчас. Интересно, что пошло не так? Кстати, а почему я продолжаю писать эту книгу вместо того, чтобы сдаться?

Незнакомец: Потому что она вышла в лидеры на fanfiction.net (где опубликованы 500 тысяч историй) по числу отзывов. У неё есть группы почитателей во многих университетах и колледжах. На сайте, который уже перестал быть основным местом выкладки, у неё больше 15 миллионов просмотров. Поклонники создали проект по созданию аудиоверсии этой книги, при этом вы сами этим проектом не занимались совершенно. «Методы» прекрасно знают в Калтехе и МТИ, у них есть популярный сабреддит с 6 тысячами подписчиков, их часто называют самым известным или самым популярным фанфиком по Гарри Поттеру. Значительная часть читателей утверждает, что это лучшая книга, которую они прочитали в своей жизни, а как минимум одного золотого медалиста международной олимпиады по математике она вдохновила поучаствовать во множестве математических воркшопов MIRI.

Элиезер: Мне нравится этот сценарий. Он странный, а мне нравятся странности. Внедрять такое состояние дел в реальность и вынуждать людей мириться с ним доставило бы мне бесконечное удовольствие.

Незнакомец: Возвращаясь к теме. Какова, по-вашему, вероятность того, что дела будут идти так или лучше?

Элиезер: Гм… надо подумать. Очевидно, что именно такой сценарий невероятен в силу коньюнкции. Однако если поделить исходы в зависимости, будут ли они с точки зрения моей функции полезности лучше или хуже этого, и спросить, какую вероятность я присвою лучшим исходам, то я бы сказал, что примерно 10%. То есть, подобный успех находится примерно на 90-м процентиле моих надежд.

Пат (издаёт нечленораздельные звуки).

Элиезер: Ой. Упс. Я про вас забыл.

Пат: 90-й процентиль?! Вы всерьёз считаете, что такое может случиться с шансами 1 к 10?!

Элиезер: Гм-м…

Незнакомец: Да, он всерьёз так считает. Если бы я не поставил вопрос таким образом, он вряд ли бы думал о подобном прогнозе: не потому что этот прогноз чересчур конкретен, а потому что Элиезер Юдковский просто не пытается продумывать такие подробности заранее. Он называет такое занятие «фантазиями о деталях» и считает, что в подобные фантазии обычно лишь утекает эмоциональная энергия. Но если бы такой прогноз сбылся, Элиезер сказал бы, что присвоил бы исходам такого рода или лучше вероятность в 10% от всех возможных исходов. Хотя он беспокоился бы об искажении задним числом.

Пат: По-моему, вероятность такого исхода скорее ближе к 0,1%, и даже эта оценка — слишком щедра!

Элиезер: Да, «сторонники взгляда извне» часто говорят мне примерно то же самое почти всякий раз, когда я пытаюсь сделать что-нибудь интересное. Впрочем, ваша оценка меня всё же удивила. В смысле, моя базовая гипотеза о том, как работает этот ваш «взгляд извне», заключается в том, что это способ выразить скепсис по любому поводу, подобрав референтный класс, который предрекает неудачу. Затем вокруг этого референтного класса можно построить идеальную эпистемическую ловушку, рассуждая про эффект Даннинга-Крюгера и опасности взгляда изнутри. Однако попытка написать фанфик по Гарри Поттеру, пусть даже очень хороший фанфик по Гарри Поттеру, для большинства людей обычно не выглядит замахом на высокий статус. Я бы ожидал, что люди в основном будут реагировать на фрагмент про золотого медалиста международной олимпиады по математике, хотя априорная вероятность оказаться золотым медалистом международной олимпиады по математике выше, чем априорная вероятность оказаться автором фанфика по Гарри Поттеру с наибольшим количеством отзывов.

Пат: Вы раньше когда-нибудь вообще пытались написать фанфик по Гарри Поттеру? Вы знаете какие-нибудь существующие награды, которые помогают продвигать лучшие фанфики, или сайты, которые рекомендуют фанфики? Вы представляете, что именно хочет значительная часть фэндома по Гарри Поттеру? Например, просто факт публикации на FanFiction.net уже оттолкнёт множество людей. Лучшие работы обычно выкладываются на ArchiveOfOurOwn.Org или на других, ещё более специализированных сайтах.

Элиезер: А, я понял. Вы всерьёз знакомы с существующим фэндомом по Гарри Поттеру. У вас в голове есть модель уже существующей иерархии в этом фэндоме. Поэтому, когда в незнакомец в маске говорит о том, что «Методы» станут самым популярным фанфиком по Гарри Поттеру, вы это воспринимаете как заявку на слишком завышенный статус, и с помощью «взгляда извне» обосновываете, почему это звучит крайне неправдоподобно. Такой трюк можно проделать с любым высказыванием.

Пат: Сомневаюсь, что с помощью взгляда извне или предсказания на основе референтного класса можно продемонстрировать неправдоподобность любого высказывания. По-моему, неправдоподобно выглядят утверждения о событиях, которые вряд ли произойдут. Да, я действительно знаком с сообществом любителей фанфиков по Гарри Поттеру. Как это может обесценить моё мнение? Я разбираюсь в этой области. Я представляю, сколько тысяч авторов — среди которых есть очень хорошие авторы — пишут фанфики по Гарри Поттеру. И только один из них может оказаться автором фанфика с максимальным количеством отзывов. И я спрашиваю снова, вы хотя бы пробовали понять, как реально устроено сообщество? Можете ли вы назвать хотя бы одну ежегодную награду, вручаемую в фэндоме?

Элиезер: Гм… Навскидку точно нет.

Пат: Просили ли вы какого-нибудь из авторов лучших существующих фанфиков по Гарри Поттеру оценить ваш предполагаемый сюжет или предполагаемые идеи истории? Например, Нонджона11 — автора «Чёрной комедии»12? Или Сару-128113, или Джей-Берна14, или любого другого автора, создавшего множество работ, признанных превосходными?

Элиезер: Честно признаюсь, что, хотя я читал этих авторов и мне нравятся их истории, мне ни разу не приходила в голову подобная мысль.

Пат: То есть, вы не консультировались ни с кем, кто разбирается в фэндоме Гарри Поттера лучше вас.

Элиезер: Не-а.

Пат: И раньше вы не писали фанфиков по Гарри Поттеру, даже очень коротких.

Элиезер: Вы правы.

Пат: Вы не предпринимали никаких усилий, чтобы познакомиться с существующим сообществом людей, которые читают или пишут фанфики по Гарри Поттеру, и узнать о том, от чего вообще зависит успех вашей работы.

Элиезер: Я читал некоторые известные фанфики по Гарри Поттеру, потому что мне нравилось их читать. Собственно, именно поэтому у меня в голове появилась идея написать свой фанфик.

Пат: Что бы вы подумали о человеке, который прочитал несколько известных книг по физике и захотел стать величайшим физиком в мире?

Незнакомец (в сторону): По-моему, обычно «взгляд извне» на самом деле касается иерархии статусов и если люди считают, что вы не уважаете существующую иерархию, они реагируют сильнее. И если вы заявляете, что преодолеете некую высокую планку, но людям кажется, что вы делаете это без уважения, то они склонны предрекать вам провал гораздо чаще, чем если бы вы сделали более уважительное по отношению к текущей иерархии заявление. Судя по всему, чокнутый «непризнанный гений» в физике в этом контексте воспринимается как подходящая аналогия не просто потому, что у него неверная «карта». Обычные заблуждения считаются чем-то трагикомическим, они не вызывают презрения. «Непризнанные гении» в физике отличаются тем, что они не уважают физиков — людей с высоким статусом в важной иерархии. Поэтому они кажутся подходящим референтным классом для понимания других очевидных примеров неуважительных претензий на высокий статус. У людей возникают примерно одинаковые чувства, несмотря на то, что эти явления во многом отличаются.

Элиезер: Чтобы стать великим физиком, нужно открыть настоящие законы физики, которые уже существуют в мире, но вам неизвестны. А этого невозможно достичь, не работая вместе с другими физиками — вы должны найти экстраординарно уникальный ключ к экстраординарно уникальному замку. Однако очень много возможных книг могут превзойти все уже существующие фанфики по Гарри Поттеру, и, чтобы их написать, не нужно строить ускоритель.

Незнакомец: Элиезер, насколько я понял, когда вы пытаетесь оценить сложность задачи «стать величайшим физиком», вы оцениваете соответствующую задачу с точки зрения познания. Кажется, вы не обращаете внимание на вопросы, связанные со славой.

Пат: Элиезер, по-моему, вы умышленно игнорируете основную мысль: что именно неправильно в попытке прочитать несколько книг по физике и захотеть стать величайшим физиком в мире. Неужели вы не видите, что это ошибка того же рода, что и ваши воздушные замки о фанфике по Гарри Поттеру? Да, конечно, стремящийся стать физиком ошибается гораздо внушительнее. Вы не понимаете, что критик скажет вам то же самое? Да, стать величайшим физиком в мире намного сложнее. Однако вы пытаетесь решить менее сложную задачу в свободное время, потому что считаете, что она простая.

Элиезер: В случае успешного развития событий, которое описал незнакомец в маске, на последние главы я потрачу гораздо больше усилий, потому что их полезность будет уже доказана.

Незнакомец: Кстати, Пат, а вы знаете, что Элиезер не читал четвёртую, пятую и шестую книги Роулинг о Гарри Поттере? И лишь ограничился просмотром фильмов? И даже когда он начал писать свой фанфик, он не потрудился их прочитать.

Пат (издаёт бессвязные звуки).

Элиезер: Ну… я прочитал первые три книги, когда они вышли, а потом попытался прочитать четвёртую. Проблема в том, что к тому времени я уже прочитал много фанфиков и привык, что вселенная Гарри Поттера — это место для «взрослых» историй. Поэтому, когда я начал читать «Гарри Поттер и кубок огня», мне уже сложно было его воспринимать, мой мозг привык к другому. Но я прочитал достаточно фанфиков по этой вселенной, поэтому я довольно неплохо её знаю. Я могу сказать, как зовут младшую сестру Флёр Делакур. Вообще-то я прочитал целый роман про Габриель Делакур. Я всего лишь не прочитал все исходные книги.

Незнакомец: А в случае необходимости узнать какие-то важные факты из канона Элиезер может заглянуть в Harry Potter Wikia. Поэтому, как вы понимаете, у него есть все знания, которые ему, по его мнению, могут понадобиться.

Пат (издаёт ещё больше бессвязных звуков).

Элиезер: …Зачем вы рассказываете всё это Пату?

Незнакомец: Потому что, с точки зрения Пата, это чертовски важный факт, указывающий на ваш будущий провал. А для меня это иллюстрация очень важного жизненного урока. Можно прочитать ряд работ из некоторой области и тем самым продемонстрировать уважение к людям, которые их написали или считают их важными. А можно собрать ключевую информацию в этой области, необходимую для собственной работы. Без последнего успех немыслим. Первое же важно лишь до тех пор, пока для вас важны публичные отношения. Однако кажется, что люди, у которых нет слепого пятна в отношении статусов, с трудом видят эту разницу.

Пат: Да, я действительно испытал чувство негодования. Когда вы сказали, что Элиезер не прочитал все книги канона и что он считает, что для работы ему хватит вики, я воспринял это как явное неуважение к Дж.К.Роулинг и авторам лучших фанфиков по Гарри Поттеру на данный момент.

Элиезер: Что ж, я попробую немного компенсировать ущерб, нанесённый публичным отношениям. Если бы я считал, что смогу писать книги для детей, которые станут настолько же популярны, как и книги Роулинг, я бы занялся именно этим. Роулинг стала миллиардером, а ещё она научила мою младшую сестру наслаждаться чтением. Люди, обесценивающие умение «писать детские книжки» наверняка никогда не пытались написать что-нибудь сами, и уж тем более не писали детские книжки. Писать хорошие книги для детей сложно. Именно поэтому «Методы» будут нацелены на взрослых. Хотя ваша модель меня, судя по всему, утверждает обратное, но я хорошо представляю и собственные возможности, и собственные ограничения. И я понимаю, что сейчас я недостаточно хорош как автор, чтобы писать книги для детей.

Пат: Я могу вообразить ситуацию, в которой я решу, что у некоего человека есть прекрасные шансы написать лучший фанфик по Гарри Поттеру в мире, пусть даже он прочитал лишь первые три книги канона. Например, если это попытается сделать Нил Гейман. (Впрочем, я чертовски уверен, что Нил Гейман наверняка прочитал бы все книги канона.) Вы считаете, что можете сравниться с Нилом Гейманом?

Элиезер: Вряд ли я когда-нибудь смогу потратить столько времени на совершенствование писательского мастерства, чтобы сравняться с Нилом Гейманом.

Пат: Я читал ваш «Тройной контакт». По-моему, это ваше лучшее произведение. Я знаю, что о нём положительно отозвался Питер Уоттс, обладатель премии «Хьюго». Но, с моей точки зрения, «Тройной контакт» всё же не дотягивает до, скажем, фанфика «Always and Always Part 1: Backwards With Purpose». Так какие же писательские достижения позволяют вам думать, что с десятипроцентной вероятностью ваш проект станет лучшим фанфиком по Гарри Поттеру по числу отзывов?

Элиезер: То, чем вы сейчас занимаетесь, я обычно называю «предъяви свою лицензию героя». Грубо говоря, я обозначил свои намерения попытаться взять высоту, которая, с вашей точки зрения, превосходит моё текущее социальное положение, а вы хотите, чтобы я доказал, что у меня уже хватает на это действие статуса.

Пат: Вы переходите на личности вместо ответа на мой вопрос. Я не понимаю, каким образом при тех знаниях и тех свидетельствах, которые у вас уже есть, вы позволяете себе назначить в этой ситуации вероятность в 10%. Впрочем, давайте убедимся, что мы разговариваем об одном и том же. Вы предполагаете, что эти «10%» реальная хорошо откалиброванная вероятность?

Элиезер: Да. Когда я задумываюсь о шансах, я считаю, что я согласился бы на пари 20:1 — в смысле, если бы вы предложили мне 20 долларов против одного за то, что мой фанфик не получит успеха. И мне было бы неуютно заключать пари при ставке 4 доллара против одного. Возьмём примерно геометрическое среднее и получим шансы 9:1.

Пат: А вы считаете себя хорошо откалиброванным? То, чему вы присваиваете вероятность 9:1 должно происходить в 9 случаях из 10?

Элиезер: Да, думаю, я смог бы сформулировать 10 утверждений, которым я присваиваю вероятность 90%, и ошибиться в среднем примерно один раз. Я не проверяю собственную калибровку так часто, как некоторые из рационалистов, однако когда я последний раз проходил калибровочный тест CFAR на 10 вопросов и пытался указать доверительные интервалы в 90%, вне моих интервалов оказался ровно один правильный ответ. Сносная калибровка случается вовсе не так редко, как думают сторонники взгляда извне. Достаточно лишь кое-что выучить и немного попрактиковаться.

Незнакомец (в сторону): Элиезер-2010 не использует PredictionBook так же часто, как Гверн Бранвен15, не играет в игры на калибровку так же часто, как Анна Саламон и Карл Шульман. Он не присоединился к исследованию Филиппа Тетлока, посвящённому суперпредсказаниям. Однако я заключал пари при любой возможности — и до сих пор это делаю. Кроме того, я всегда стараюсь выразить свою неуверенность численно, если я её замечаю и понимаю, что в ближайшем будущем я узнаю правильный ответ.

Недавно я увидел на доске для заметок на холодильнике загадочный набор утверждений о паровом котле вместе с непонятными числами и диаграммами. На пять секунд меня это озадачило, а потом я предположил, что это записки Бриенны, касающиеся её прохождения игры «Myst». Поскольку я чувствовал собственную неуверенность, но мог довольно скоро выяснить правду, я потратил тридцать секунд на оценку вероятности, что эти записки действительно относятся к игре Бриенны. Сперва я назначил этому вероятность 90%. Это показалось мне очень уж сверхуверенным, поэтому я понизил её до 80%, то есть, до 4:1. Затем я подумал о том, какие другие компактные возможные объяснения я не учёл, и понизил шансы до 3:1. Позже я поговорил с Бриенной и выяснил, что записки действительно касались игры «Myst». После чего я потратил тридцать секунд на размышления о том, действительно ли прочие компактные возможные объяснения загадочных записей были настолько вероятны. Возможно, если я быстро придумал разумное объяснение, мне стоило меньше беспокоиться о возможных неучтённых вариантах.

Я потратил на эти размышления не так много времени. Это лишь один пример из моей жизни. Весь смысл таких историй в том, что их случается много, каждая новая немножко дополняет интуицию. Постепенно накапливается опыт. Размышлять об этом настолько долго, как я об этом сейчас пишу, обычно не слишком хорошая идея. (Если вы знакомы с нейронными сетями и дельта-правилом, то должны были догадаться, чего я пытаюсь добиться от своего мозга.) Мне немножко стыдно, что я не занимаюсь ставками более систематично, но учитывая мой ограниченный запас «ложек», вряд ли меня хватило на что-то большее, чем мои нынешние упражнения, которые пусть и случайны, но достаточно регулярны.

Сейчас, когда я редактирую этот текст, могу сказать, что недавно я присвоил шансы 5:1 против того, что два персонажа из «Карточного домика» займутся сексом друг с другом, но это случилось. Это всерьёз подтолкнуло меня делать поправки против сверхуверенности. (Ведь согласно дельта-правилу, это была большая ошибка.)

Пат: Но ведь исследования показывают, что даже если людей предупреждают о сверхуверенности, дают им прочесть исследования о сверхуверенности и немного попрактиковаться, то сверхуверенность уменьшается, но не исчезает полностью. Так?

Элиезер: Если мы усредняем по всем испытуемым, да, сверхуверенность уменьшается, но не исчезает полностью. Это не означает, что сверхуверенность уменьшается, но не исчезает полностью для любого человека.

Пат: Что заставляет вас считать, что вы справляетесь со сверхуверенностью лучше среднего человека?

Незнакомец: …

Элиезер: То, что я практиковался гораздо больше этих испытуемых. И я не верю, что уровень усилий, прикладываемый средним испытуемым, даже испытуемым, которого предупредили о сверхуверенности и один раз дали попрактиковаться, — это предел человеческих способностей. И всерьёз меня заставляет верить в собственные успехи то, что я проверял. Вряд ли существует «референтный класс», полный сверхуверенными людьми с галлюцинациями о том, как они занимаются калибровкой и обнаруживают, что их интервалы доверия становятся хорошо откалиброванными.

Незнакомец: Я подкину некоторую информацию, которую я узнал из эссе Сары Константин «Существуют ли рациональные люди?». Станович и Уэст в исследовании 1997 года обнаружили, что 88% участников исследования продемонстрировали систематическую сверхуверенность. Это означает, что для оставшихся 12% они не смогли обнаружить сверхуверенность. И это не слишком удивительно: в своей работе 1998 года они указывают, что во многих тестах обнаруживалось, что около 10% студентов не проявляют то или иное искажение.

Элиезер: Верно. Поэтому вопрос в том, могу ли я при наличии некоторой практики добиться такого же отсутствия сверхуверенности, как лучшие 10% студентов. По-моему, это не какая-то супер-сложная задача. Да, конечно, усилия нужны. Мне приходится осознанно увеличивать доверительные интервалы. Думаю, лучшим студентам-испытуемым тоже приходилось это делать. Проблема не в способностях, нужно по-настоящему прикладывать усилия. Но когда я считаю, что увеличил интервалы достаточно, я останавливаюсь.

Факторы успеха и обмен убеждениями

Пат: То есть, вы в самом деле считаете, что когда вы назначаете шансы в 9:1 против того, что «Методы» достигнут суперуспеха, описанного Незнакомцем в маске, вы хорошо откалиброваны. Будете ли вы настаивать на том, что я должен расширить собственные доверительные интервалы о том, каких успехов могут достичь «Гарри Поттер и методы рационального мышления», чтобы избежать собственной сверхуверенности?

Элиезер: Нет. С моей точки зрения, это ничем не отличается от заявления, что вы не должны назначать успеху «Методов» вероятность в 0,1%, потому что шансы 1000:1 — это слишком мало. Так аргументировать нельзя, и я тщательно стараюсь этого не делать. Подобное мышление приводит к статьям вроде работы Орда, Хиллербранда и Сандберга «Как узнать вероятность невероятного»16, которую я считаю неверной. В общем, если существует 500 тысяч фанфиков и лишь один из них может набрать больше всего отзывов, нельзя случайно взять один из них и заявить, что шансы 500 000:1 — это слишком мало.

Пат: Рад, что вы с этим согласны. Конечно, я не дурак, я понимаю, что ваши книги лучше средних. 90% фанфиков по Гарри Поттеру — это полная хрень (в соответствии с законом Старджона), а 90% оставшихся 10% не хватает вдохновения. Таким образом остаётся примерно 5000 фанфиков, с которыми вам придётся соревноваться всерьёз. Я даже признаю, что если вы будете стараться всерьёз, вы окажетесь среди лучших 10% из них. Таким образом шансы, что вы станете лучшим автором фанфика по Гарри Поттеру на fanfiction.net - 1 из 500. Ещё нам надо учесть, что есть и другие сайты с фанфиками по Гарри Поттеру, где работ меньше, но эти работы в среднем лучше. Получается, что ваши шансы написать самый лучший фанфик примерно 1 к 1000, и, по-моему, это довольно щедрая оценка, с учётом того, насколько удивительно несерьёзно вы отнеслись к подготовке… Гм, с вами всё в порядке, Незнакомец в маске?

Незнакомец: Извините, пожалуйста. Я отвлёкся на мысль о мире, где я мог бы зайти на fanfiction.net и обнаружить там 1000 историй, сравнимых с «Гарри Поттером и методами рационального мышления». Я думаю об этом мире и стараюсь не заплакать. Не то, что я не в состоянии вообразить мир, где ваше скромно звучащее вычисление Ферми корректно… Просто мир, который вы описываете, кажется, очень отличается от нашего.

Элиезер: Пат, я понимаю, к чему вы клоните, и я действительно не знаю, что вам ответить, пока у меня не будет возможности показать вам книгу.

Пат: Вы понимаете, что я хочу до вас донести? На вас вообще мои слова действуют? Да, моя оценка довольно приблизительная, но мне кажется, что мой подход к вычислению Ферми вполне разумен. Если вы не согласны с выводом, мне хотелось бы узнать, какие дополнительные факторы приводят к тому, что ваше вычисление Ферми даёт результат в 10%.

Незнакомец: Вы недооцениваете, насколько по-разному вы думаете. Когда Элиезер говорил о своей оценке в 10%, ни один из перечисленных вами факторов ему даже не пришёл в голову.

Элиезер: Вынужден признать, что это правда.

Пат: И какие же, по-вашему, самые важные факторы, влияющие на то, преуспеете вы или нет?

Элиезер: Гм. Хороший вопрос. Я бы назвал… удастся ли мне сохранять мой писательский энтузиазм, смогу ли я писать достаточно быстро, получится ли у меня настолько хорошая история, какую я сейчас представляю, получится ли у меня учиться на ходу и создавать что-то ещё лучшее. Плюс большое количество неуверенности на тему, как люди на самом деле будут реагировать на работу, которая сейчас в моей голове, когда я её напишу.

Пат: Хорошо, у нас есть пять ключевых факторов. Оценим вероятности для каждого из них. Предположим, мы оценим шансы на сохранение энтузиазма в 80%, и в 50% на то, что вы будете писать достаточно быстро, — хотя в прошлом у вас были с этим проблемы, на «Тройной контакт» у вас ушёл целый год, если я правильно помню. Оценим в 25% вероятность того, что вы сможете успешно записать эту невероятную историю, которую, судя по всему, вы представляете: по-моему, авторы практически всегда на этом спотыкаются, и я почти уверен, что и у вас будут с этим большие проблемы, но пусть будет одна четвёртая — хотелось бы «застилменить» ваши доводы. Пусть 50% — вероятность, что вы будете учиться достаточно быстро, чтобы ваш проект не пошёл ко дну из-за уже известных вам проблем. Теперь, даже не упоминая возможную реакцию читателей (вы действительно собираетесь продать когнитивную психологию и формальную эпистемологию фанатам Гарри Поттера?) и несмотря на то, что я был довольно щедр в своих оценках, перемножив все эти вероятности мы получаем оценку в 5%, что меньше полученных вами 10%…

Незнакомец: Неверно.

Пат: …Неверно? Что вы хотите сказать?

Незнакомец: Давайте рассмотрим факторы, которые могут повлиять на то, что ваше рассуждение верно. Сперва оценим вероятность, что произвольное предложение окажется истинным. Затем нужно рассмотреть вероятность, что некий аргумент, направленный в поддержку некоего вывода, не будет содержать грубейших логических ошибок. Потом вероятность, что некто, утверждающий, что аргумент «неверен», ошибается…

Пат: Элиезер, если вы не согласны с моими выводами, то что не так с моими вероятностями?

Элиезер: Ну. начнём с того, что смогу ли я писать быстро, зависит от того, смогу ли я сохранять свой энтузиазм. Реакция аудитории зависит от того, смогу ли я писать быстро. Смогу ли я чему-то научиться, зависит от того, смогу ли я сохранять мой энтузиазм. С точки зрения теории вероятностей перемножать эти числа бредово.

Пат: Хорошо, чему же будет равна вероятность, что вы сможете писать быстро, при условии, что у вас сохраняется энтузиазм…

Элиезер: Вы считаете, что если бы вы начали с этого вопроса, вы бы пришли к другим результатам? Уверен, что если бы вам пришло бы в голову построить вопрос как «вероятность при условии…», у вас получились бы точно такие же вероятности, потому что именно к этому привёл бы баланс ваших мыслительных сил — взять какое-нибудь небольшое число, которое звучит разумно или что-нибудь в этом духе. К тому же проблема условной вероятности далеко не единственная причина, по которой я считаю, что приём «оценим эти вероятности, а потом перемножим» лишь риторический трюк.

Пат: Риторический трюк?

Элиезер: Если подобрать для «вывода» нужные факторы, можно легко добиться, чтобы люди давали сколь угодно маленькие «ответы». Например, посмотрите статью ван Бовена и Эпли «Эффект подробностей при оценочных суждениях»17. Проблема в том, что люди… как бы это покороче объяснить… если людей просить оценить вероятность чего бы то ни было, их оценки будут стремиться к некоторым медианным значениям. Поэтому ими можно довольно сильно манипулировать, подбирая категории, для которых нужно «посчитать» вероятность. Например, если если спрашивать автомеханика о возможных причинах, почему машина может не завестись — причём опытного автомеханика, который каждый день наблюдает настоящую частоту поломок! — а затем просить оценить либо вероятность «отказ системы электрооборудования» в целом, либо отдельные вероятности для «умер аккумулятор», «проблемы с генератором» и «проблема с зажиганием», то вероятность для составляющих в сумме окажется гораздо больше, чем вероятность для целого, если не вдаваться в подробности.

Пат: Но возможно, когда я разбираю в подробностях, что может пойти не так, я просто компенсирую ошибку планирования и то, что люди обычно недостаточно пессимистичны…

Элиезер: Прежде всего, проблема в ваших рассуждениях в том, что описанный исход не обязан быть идеальной конъюнкцией упомянутых факторов. Чтобы достичь успеха, не всё в вашем перечне должно сработать одновременно. Вы упустили другие дизъюнктивные пути, ведущие к тому же исходу. В вашей вселенной никто не прикладывает дополнительных усилий и не ищет ошибки, когда что-то пошло не так! Я никогда не видел, чтобы люди назначали якобы маленькую конъюнктивную вероятность чему-то, что на самом деле требовало выполнения всех предпосылок. Именно поэтому я всегда тщательно стараюсь избегать приёма: «Я любезно разобью это утверждение на большую конъюнкцию и попрошу оценить вероятность каждого множителя».

По моему опыту, этот приём можно применять только с одной целью: заставить людей поверить, что они «назначают» вероятности, в то время как вы манипулируете подбором факторов, чтобы получить итоговый результат, который вам нравится. В честном разговоре использовать его не имеет смысла. Я много раз видел, как люди использовали этот приём. Иногда с его помощью поддерживали выводы, с которыми я был согласен, иногда — выводы, с которыми я был не согласен. Но я никогда не видел, чтобы этот приём помогал найти истину. Я считаю его применение плохой эпистемологией, которая распространена, потому что, пока люди не задумываются достаточно внимательно, он звучит разумно.

Пат: Я рассматривал те факторы, которые вы сами назвали самыми важными. С чем именно в моей оценке вы не согласны?

Незнакомец (в сторону): Кстати, ошибка многих этапов — это замечательный трюк. Можно попросить людей самих подумать о ключевых факторах и всё равно подтолкнуть их дать ответы, из которых будет следовать маленький итоговый ответ. Ведь чем дольше люди перечисляют факторы и назначают им вероятности, тем меньше будет итоговое произведение. Как только мы понимаем, что при увеличении числа перемножаемых вероятностей произведение становится всё меньше и меньше, нам, чтобы отличать правду от лжи, приходится вводить дополнительные компенсирующие меры.

В итоге вам придётся прийти к выводу, что если успех в каком-то реальном предприятии зависит от четырёх факторов (не говоря уже о десяти), то вы априори не сможете его достигнуть. Да, выписать множество возможных сценариев провала для того, чтобы заранее решить, как с ними справляться, может быть мудрой идеей (известной под названием Мерфиджитсу18). Однако когда вы начинаете присваивать «вероятность того, что Х пойдёт не так и это нельзя будет исправить, при условии, что всё предыдущее в списке идёт по плану или может быть успешно исправлено», то, если проект теоретически может достичь успеха — как, например, «Методы», — вам стоит взять вероятность близкую к единице19. В противном случае вы априори исключаете возможность собственного успеха, а попытка что-то «посчитать» — это притворство.

Честно говоря, сомневаюсь, что эту методологию вообще стоит чинить. Вряд ли нужно заморачиваться, пытаясь компенсировать вероятности в сторону увеличения. Просто не нужно заниматься подсчётами «конъюнктивного провала» на основе вероятностей успеха критичных факторов, когда у нас этих факторов очень много и вероятности получены очень приблизительно. Не думаю, что в таких условиях вы сможете что-нибудь оценить хорошо, даже если попытаетесь компенсировать упомянутую предсказуемую ошибку.

Элиезер: Да, я перечислил ключевые для меня факторы и я в самом деле сомневаюсь, что они сработают. Если бы я в них был уверен сильнее, я бы назначил вероятность больше, чем 10%. Однако эти факторы связаны дизъюнктивно в той же мере, что и конъюнктивно. Они не обязаны сработать вместе и сразу. Например, возможен такой сценарий: я буду писать «Методы» достаточно хорошо, что у них сложится достаточная аудитория, потом моя скорость написания значительно снизится, но «Методы» всё равно добьются большого успеха в итоге.

Пат: И как же вы скомбинируете эти факторы, чтобы оценить невероятный успех в 10%?

Элиезер: Никак. Я получил свою оценку следующим образом: я обнаружил, что у меня есть две границы — 20:1 и 4:1 — и я не готов их двигать, не беспокоясь об излишней сверхуверенности в ту или иную сторону. Примерно таким же образом я строил свои десять доверительных интервалов на тесте калибровки CFAR. Затем я взял логарифмическое среднее.

Пат: То есть вы даже не пытались оценить все эти факторы, а затем перемножить?

Элиезер: Нет.

Пат: Тогда откуда, чёрт возьми, вы взяли эти самые 10%? Ваше заявление, что вы получили два других таинственных числа — 20:1 и 4:1, — после чего взяли их геометрическое среднее, не отвечает на самый главный вопрос.

Незнакомец: Полагаю, лучше всего используемая методика описывается словами «взять числа с потолка». Важно практиковаться в калибровке своих чисел с потолка, когда вы потом узнаёте правильный ответ. Также важно понимать ограничения своих чисел с потолка и не пытаться сотворить невозможное, назначив кучу чисел с потолка сложным взаимосвязанным событиям.

Элиезер: Я бы сказал, что получил свою оценку… подумав о задаче на объектном уровне? Применив знания из области моей экспертизы? Я уже размышлял над этой задачей довольно долго, поэтому многие её важные аспекты уже были у меня в голове. Я получил из своей головы некоторое представление о вероятностях, а благодаря своей практике делать ставки я уже немного умею переводить собственное представление о неопределённостях в числа, и таким образом я получил 9:1. Я не очень понимаю, какую вы ещё хотите получить информацию. Если и есть способ получать настоящие, значительно лучшие суждения с помощью какой-то продвинутой техники, то я его не встречал в литературе и пока не практиковал. Если вы мне продемонстрируете, что в 9 случаях из 10 вы сможете назначать правильные 90-процентные доверительные интервалы, и ваши интервалы будут уже моих, и вы этого достигните с помощью какой-то продвинутой техники, я буду рад о ней услышать.

Пат: То есть, фактически, ваша вероятность в 10% происходит из недоступной интуиции.

Элиезер: В данном случае? Более-менее, да. Пока я не могу вам показать, что я планирую делать в «Методах», я мало что способен объяснить на тему, почему они могут преуспеть.

Пат: Если рассуждения у вас в голове корректны, почему их нельзя объяснить мне?

Элиезер: Потому что у меня есть недоступная вам информация. Я знаю, какую книгу я пытаюсь создать.

Пат: Элиезер, мне кажется, вы игнорируете довольно важную мысль. Вам стоит задуматься о том, что вы считаете, что у вас есть непередаваемые причины верить в успех вашего проекта «Методы рационального мышления». Разве неспособность убедить других людей в будущем успехе не схожа с ощущениями спятивших непризнанных гениев, изобретающих дурацкие физические теории? Они ведь тоже ссылаются на непередаваемую интуицию?

Элиезер: Однако ваш метод, который вы называете «предсказанием на основе референтного класса», слишком требователен, чтобы на самом деле определить, сможет кто-то написать фанфик по Гарри Поттеру с наибольшим количеством отзывов. Не важно, речь идёт обо мне или о ком-то ещё. Тот факт, что скромного критика не удаётся убедить, с точки зрения байесианства не позволяет отличить успешный в будущем проект от провального. Это не свидетельство.

Пат: Наоборот. Если бы Нонджон сказал мне, что он намерен написать фанфик по Гарри Поттеру, который получит больше всего отзывов, я посчитал бы это обоснованным утверждением. «Чёрная комедия» Нонджона признана одним из лучших фанфиков, Нонджон на хорошем счету у влиятельных обозревателей и раздающих рекомендации сообществ. Вероятно, он не был бы уверен, что он напишет фанфик, у которого точно будет больше всех отзывов, но он имеет полное право считать себя одним из наиболее вероятных претендентов на место автора такого фанфика.

Незнакомец: Любопытно, насколько вашу оценку вероятности успеха можно свести к одному числу, которое очень сильно коррелирует с тем, насколько человек уважаем внутри соответствующего сообщества.

Пат: Более того, даже если мой метод слишком требователен, это ещё не означает, что в моих рассуждениях какая-то ошибка. Человек, покупающий лотерейный билет, не сможет убедить меня, что у него есть веские причины верить в свой успех. Даже если это будет человек, который выиграет. Это всё равно не означает, что я был неправ, назначая низкую вероятность успеха людям, покупающим лотерейные билеты.

Для Нонджона вполне разумно купить лотерейный билет со ставкой 1:10. Нил Гейман может позволить себе 2 из 3. Шансы для вас, как я уже говорил, вероятно ближе к 1:1000, и они настолько высоки, лишь потому что вы уже продемонстрировали способность хорошо писать. Я даже не штрафую вас за то, что вы планируете внедрить ярко выраженных рациональных персонажей во вселенную Гарри Поттера, а это слишком уж непохоже на существующие лучшие фанфики. Возможно, на меня слишком влияет то, что мне понравилось то, что вы писали раньше. Однако я нахожу крайне подозрительным ваше утверждение, что вам достоверно известно, что ваш лотерейный билет лучше в сто раз, но вы не в состоянии объяснить, откуда вам это известно. Не бывает веских свидетельств, которые невозможно передать другому человеку.

Незнакомец: «Я пишу книгу по экономической теории, которая, как я полагаю, практически перевернёт всеобщие представления об экономике. Вероятно, не сразу, а в течение ближайших десяти лет. Сейчас вряд ли вы — или кто-либо другой — поверят в это. Но я сам не просто надеюсь, что так и будет, я довольно сильно в этом уверен». Так писал Джорджу Бернарду Шоу победитель в лотерее Джон Мейнард Кейнс о своей работе над «Общей теорией занятости, процента и денег».

Элиезер: Кстати, Пат, если я в самом деле преуспею в работе над «Методами», вы сами окажетесь в непередаваемом эпистемическом состоянии по отношению к кому-то, кто узнает обо мне позже лишь в связи с этой работой. Этот другой человек, возможно, предположит, что я не просто случайно выиграл в эту лотерею, но у него будет меньше свидетельств на этот счёт, чем у вас. Это довольно интересный и важный эпистемологический вопрос.

Пат: Я не согласен. Если у вас есть веские интроспективные свидетельства, расскажите мне о состоянии вашего разума. С моей точки зрения, не должно быть ситуаций, когда вы меняете свои взгляды на основании того, как это свидетельство «ощущается для вас», не так, как на основании того, как это свидетельство «ощущается для других людей». В этом случае вы и эти другие люди просто должны обновить свои взгляды ещё раз.

Незнакомец: Нет, в таком сценарии два человека действительно могут оказаться в непередаваемых эпистемических состояниях. Ведь существуют и другие искажения. Вы бы знали, что ситуация «Победа Элиезера» на самом деле была отмечена как отдельный исход заранее, но другой человек отнёсся бы к этому якобы отдельному исходу с учётом послезнания, и поэтому у него были бы веские причины не доверять своему послезнанию, и он не смог бы оказаться в том же состоянии разума, что и вы.

Вы правы, Пат: два агента, у которых совершенно нет когнитивных искажений и у которых нет поистине фундаментальных разногласий об априорных вероятностях, в такой ситуации никогда бы не оказались. Однако, насколько я могу судить, у людей такое случается довольно часто. В науке предсказания заранее ценятся вовсе не случайно: из-за искажения знания задним числом сложно в той же степени поверить в предсказание, о котором вы узнали уже после того, как оно сбылось.

Пат: Вы действительно предполагаете, что повсеместная распространённость когнитивных искажений позволяет вам сильнее верить в то, что ваши рассуждения корректны? Моя эпистемология в этих вопросах гораздо прямолинейнее вашей. Применим правило «веские свидетельства всегда можно передать» к описанному случаю. Гипотетический человек, наблюдавший за тем, как Элиезер Юдковский пишет «Цепочки» на LessWrong’е, слышит, как он присваивает существенную вероятность в успехе собственных «Методов», а затем видит, как этот успех наступает, должен просто понять, что на это скажет внешний наблюдатель. А он скажет вот что: вам просто повезло или не повезло — как и в случае покупателя лотерейного билета, который заранее заявил, что владеет паранормальными способностями, а потом ему посчастливилось выиграть.

Элиезер: Мне это сильно напоминает сложность, которую я однажды описывал для «метода воображаемого изменения взглядов»20. Способности людей к логическим выкладкам не идеальны, поэтому мы не можем быть уверены, что мы рассуждали об априорных вероятностях правильно. Я понимаю, почему сейчас с вашей точки зрения успех «Методов» — это всё равно что выигрыш в лотерею с шансами 1 к 1000. Но если это в самом деле случится, вы не скажете: «Ну надо же, случилось событие с шансами 1 к 1000». Вам придётся задуматься, не было ли ошибки в методе, который вы использовали для определения априорной вероятности. Для лотерейных билетов это неверно, потому что мы слишком хорошо представляем, как в этом случае устроена априорная вероятность. Ну и к тому же, в реальной жизни мы никогда не видели, чтобы кто-то из наших друзей выигрывал в лотерею.

Пат: Я согласен, что если «Методы» окажутся успешны, я пересмотрю свои взгляды, а не буду настаивать, что я был прав в своей оценке шансов. Поскольку я очень-очень уверен, что этого не случится, я счастлив уступить в этом вопросе. Аргументы против вашего успеха в написании фанфика по Гарри Поттеру мне кажутся достаточно сильными — как и любые другие аргументы с точки зрения взгляда извне.

Незнакомец: Но мы обсуждаем не это.

Пат: Неужели?

Незнакомец: С моей точки зрения, в этом-то и проблема. Если человеку кажется привлекательной эпистемология скромности, он тривиально может изобрести железобетонный аргумент против любого проекта, который включает в себя какое-то важное свершение, небывалое в прошлом. Исключается возможность любого проекта, пытающегося выйти за пределы неадекватности цивилизации.

Пат: Послушайте. Нельзя просто прийти на какое-то поле деятельности и с первой же попытки захватить там лидерство. Именно об этом и говорит эпистемология скромности. Предполагается, что вы неспособны преуспеть с такими шансами против вас, какие я описал. Возможно, при наличии миллиона претендентов, кто-то преуспеет, хотя скромность предсказывает его поражение. Но если мы выиграем спор 999 999 раз из миллиона, по-моему, это довольно неплохо. Если, конечно, Элиезер не заявит, что проект по написанию нового фанфика по Гарри Поттеру настолько важен, что шанс в 0,0001% всё равно стоит того…

Элиезер: Я никогда этого не скажу. Никогда. Если скажу, можете меня пристрелить.

Пат: Тогда почему вы не отвечаете на вполне ясные, вполне обыденные, вполне очевидные аргументы, по которым я думаю, что вы не добьётесь успеха? Нет, серьёзно, что происходит сейчас у вас в голове?

Элиезер: Ощущение беспомощности от неспособности передать свои мысли.

Незнакомец: Мрачная ирония.

Пат: Тогда, уж простите, мистер Элиезер Юдковский, но я думаю, что вы просто иррациональны. И вы даже не слишком стараетесь это скрыть.

Элиезер (вздыхает): Я могу понять, почему, с вашей точки зрения, это выглядит именно так. Какие-то из моих мыслительных приёмов, которые, с моей точки зрения, помогают мне делать хорошие предсказания и вырабатывать полезные привычки, я передавать умею. Но другие вызывают у меня ощущение беспомощности: я их знаю, но не способен о них рассказать. Этот разговор связан с той частью, про которую я знаю, но не знаю, как описать.

Пат: И почему я должен в это поверить?

Элиезер: Например, потому что идеи, про которые я разобрался, как их передать, я передал достаточно впечатляюще. Именно в этом заключалась тайная цель номер 7 написания Цепочек на LessWrong: я хотел дать хороший ключ ко всем техникам, которые я не в состоянии продемонстрировать. Вам я могу лишь сказать, что вы беспокоитесь о вещах, о которых, с моей точки зрения, даже не стоит думать. Весь ваш подход к задаче неверен. Речь не о том, что неверны ваши аргументы. Они просто относятся к неправильному вопросу.

Пат: И какой же вопрос будет правильным?

Элиезер: Именно это мне сложно объяснить. Могу сказать, что вам стоит отказаться от всех ваших мыслей по поводу соревнования с другими. Люди, которые были перед вами, в каком-то смысле «зонды»: сигналы эхолота, отражения которых дают вам какое-то представление о сложности задачи. Иногда вы можете проплыть мимо проблем, которые остановили других, и выйти в новую часть океана. И это не обязательно даже приведёт вас к успеху, моя мысль здесь в том, что человек обычно почти ничего не знает о том, что самое сложное в его задаче. Часто совершенно не имеет никакого смысла выяснять, кто именно ваши соперники — насколько они умны, мотивированы или насколько им хорошо платят. Ведь вы можете посмотреть на их работу и оценить её качество.

Пат: Представим человека, который предсказывает гиперинфляцию, заявляя, что мнение общепризнанных экономистов можно игнорировать, поскольку лишь идиоты могут думать, что если утроить количество денег в экономике, то инфляции не будет.

Элиезер: Я не представляю, что происходит в головах у таких людей. Однако я сомневаюсь, что проблему можно решить, посоветовав им быть скромнее. Сказать человеку заткнуться и уважать экспертов в общем случае неправильный способ аргументации, потому что он не различает общепринятую экономику (у которой относительно высокие академические стандарты) от общепринятой диетологии (у которой относительно низкие академические стандарты). Я не уверен, что в такой ситуации может надёжно помочь хоть что-нибудь, кроме как понять экономику самому. Если бы я столкнулся с таким человеком, мне следовало бы посоветовать ему почитать побольше блогов по экономике и попробовать внимательно следить за аргументами или, что ещё лучше, почитать учебник по экономике. Однако я сомневаюсь, что если люди будут сидеть тихо и тревожно задавать себе вопросы, не слишком ли они дерзко себя ведут, то это поможет решить описанную проблему. Если и решит, то мы получим другую проблему.

Пат: То есть, ваша эпистемология на мета-уровне для меня столь же недоступна, как и ваши оценки на объектном уровне.

Элиезер: Я могу понять ваш скепсис.

Пат: Почему-то я сомневаюсь, что вы пройдёте идеологический тест Тьюринга за мою точку зрения.

Незнакомец (улыбаясь): Ну, я-то точно справлюсь с вашим идеологическим тестом Тьюринга.

Элиезер: Пат, я понимаю, как вы получили ваши оценки. Я не сомневаюсь, что вы даёте советы, желая мне помочь. Однако при этом я воспринимаю ваши советы как проявление тревожности, которая никак не входит в перечень того, о чём мне нужно думать, чтобы создать хорошую книгу. Подобные размышления — бессмысленная трата сил. Если я преуспею, это точно произойдёт не благодаря таким мыслям. Чтобы сделать «Методы» такими, как я хочу, мне стоит думать не о том, насколько я хорош по сравнению с другими людьми. Поэтому я об этом и не думаю.

Пат: Мне кажется очень странным ваше замечание: «Если я преуспею, это точно произойдёт не благодаря таким мыслям». Оно полезно именно потому, что позволяет не тратить наши усилия на проекты, в которых у нас очень мало шансов преуспеть.

Незнакомец: Звучит очень разумно. Я могу на это ответить лишь посоветовать провести один день так, как я. Откажитесь от всех мыслей, которые не внесут никакого вклада в ваш успех, если он случится. Возможно, полученный опыт чему-нибудь вас научит.

Элиезер: Дело в том, Пат… Даже если я просто начну отвечать на ваши возражения и защищать себя от вашей разнообразной критики, это поспособствует развитию привычки, которую я считаю вредной. Вы непреклонно концентрируетесь на мне и моей психологии, и, если я ввяжусь в этот спор и начну защищаться, мне придётся сосредоточиться на себе, а не на моей книге. Из-за этого я потрачу гораздо меньше внимания на то, что должен сделать профессор Квиррелл на первом уроке Защиты. И что ещё хуже, мне придётся защищать собственные решения, а в этом случае мне будет сложнее изменить их в будущем.

Незнакомец: Подумайте, насколько сложнее Элиезеру будет отказаться от его другого проекта — «Искусства рациональности» — в случае его провала после множества подобных разговоров (реальных или внутренних): разговоров, в которых ему приходится защищать все причины, почему для него нормально считать, что он способен написать научно-популярный бестселлер в области рациональности. Именно поэтому важно не бояться попыток использовать неадекватность цивилизации. Важно, чтобы люди могли пробовать амбициозные проекты, не задумываясь, что они обязаны добиться успеха любой ценой или у них отберут лицензию героя.

Элиезер: Верно. И… работа мысли, связанная с беспокойством, что может подумать критик и как от него защититься или в чём ему уступить, отличается от работы мысли, которая нужна, чтобы проявить любопытство по какому-то поводу, попытаться узнать ответ и поставить эксперимент. Она отличается от того, как я думаю, когда работаю над задачей в реальном мире. Я должен думать просто о своей работе.

Пат: Если бы вы просто пытались ради забавы написать неплохой фанфик по Гарри Поттеру, я бы с вами согласился. Но вы говорите, что хотите создать самый лучший фанфик. Это же совершенно другая ситуация…

Элиезер: Нет! Я как раз пытаюсь вам объяснить, что в моей голове пытаться написать хороший фанфик и пытаться написать самый лучший фанфик — это одно и то же. Есть объектный уровень, и вы его оптимизируете. У вас есть оценка, насколько хорошо вы можете его оптимизировать. Вот и всё.

Социальные эвристики, а также важность, разрешимость и недооценённость проблемы

Пат: Мне в голову только что пришла забавная мысль. Вы ведь пытаетесь работать над теорией дружественного ИИ…

Элиезер: Предположу, здесь вы тоже не верите в мой успех.

Пат: Ну, конечно же, я не верю, что вы сможете спасти мир! (Смеётся.) Мы живём не в фантастической книге. Однако я в самом деле полагаю, что у вас есть основания надеяться внести важный вклад в теорию дружественного ИИ, которая окажется полезной какой-нибудь группировке, разрабатывающей сильный ИИ. Мне показалось интересным, что этого явно будет достичь проще, чем реализовать описанный Незнакомцем в маске сценарий или похожий на него, вероятность чего вы оценили в 10%.

Незнакомец (улыбаясь): Это совершенно-совершенно-совершенно не так.

Замечу, кстати, что там, откуда я пришёл, выражение «дружественный» ИИ вышло из моды. Мы стали говорить о «соответствии ИИ целям оператора», в основном потому что «соответствие ИИ» меньше отдаёт антропоморфизмом, чем «дружественность».

Элиезер: Соответствие? Хорошо, меня это устраивает. Однако, Пат, ваши слова оказались для меня неожиданностью. Это выходит за пределы моих представлений о вашем идеологическом тесте Тьюринга. Продолжайте, пожалуйста.

Пат: Хорошо. Что бы вы там не думали, мои слова не являются универсальным контраргументом, который я применяю к тому, что мне просто интуитивно не нравится. Они основаны на конкретных наблюдаемых доступных сторонним наблюдателям факторам, благодаря которым утверждения можно разделить на правдоподобные и неправдоподобные. Если мы отложим в сторону недоступную интуицию и просто посмотрим на доступные сторонним наблюдателям факторы, то станет совершенно очевидным, что существует огромное сообщество писателей, которые явно пытаются создавать фанфики по Гарри Поттеру. Это сообщество гораздо больше и гораздо активнее — по любой объективной доступной стороннему наблюдателю метрике, — чем сообщество, работающее над вопросами, связанными с «соответствием», «дружественностью» или чем-то там ещё. Оказаться лучшим автором в гораздо большем сообществе — намного неправдоподобнее, чем внести значительный вклад в соответствие ИИ, которым почти никто не занимается.

Элиезер: Когда я оцениваю относительную сложность задач «внести ключевой вклад в соответствие ИИ» и «довести „Методы“ до уровня, описанного Незнакомцем в маске», относительный размер существующих сообществ, который вы упомянули, мне представляется не важным. Если бы я заранее не ознакомился с фанфиками по Гарри Поттеру, у которых самая лучшая репутация, мне стоило бы учесть число соревнующихся авторов. Однако если я вижу собственными глазами уровень соревнования, то информация о размере сообщества уже не играет для меня никакой роли.

Пат: Но ведь наверняка размер сообщества должен заставить вас хотя бы задуматься, стоит ли доверять вашей интуиции в том, что вы сможете написать что-то значительно лучшее, чем результат работы столь многих авторов.

Незнакомец: Видите это мета-рассуждение? С моей точки зрения, когда люди начинают размышляют о мире таким образом, оно портит всё.

Элиезер: Если вы увидите девушку, жонглирующую несколькими шариками, вы её будете спрашивать, не стоит ли ей внезапно задуматься, входит ли она в референтный класс людей, которые лишь думают, что они хорошо ловят шарики? Это всё просто… бессмысленная трата сил.

Незнакомец: Социальная тревожность и чрезмерная педантичность.

Элиезер: Продуктивно работающий мозг сосредоточен на других вещах.

Пат: Вы утверждали, что взгляд извне — это универсальный контраргумент против любого утверждения о том, что некто с низким статусом может сделать что-то важное. Я объясняю вам, почему метод, опирающийся на наблюдаемые метрики, которые может проверить сторонний наблюдатель, утверждает, что, возможно, вы сможете внести важный вклад в соответствие ИИ, которым больше никто не занимается, но вы не напишете фанфик по Гарри Поттеру с самым большим числом отзывов, потому что с вами соревнуются тысячи авторов.

(Наблюдающая за дискутирующими Женщина неожиданно подходит к ним и вмешивается.)

Женщина: Ну, нет. Я больше не могу сдерживаться.

Пат: Э? Кто вы?

Женщина: Я истинный голос скромности и взгляда извне!

Я услышала ваш разговор и хочу сказать: внести важный вклад в проблему соответствия ИИ никак не может быть проще, чем написать популярный фанфик.

Элиезер: …Это, конечно, верно, но кто?..

Женщина: Меня зовут Мод Стивенс21.

Пат: Ну что ж, Мод, приятно познакомиться. Я всегда рад послушать о своих ошибках, даже если о них говорят люди, которые случайно сталкиваются со мной в парке и при этом подозрительно много обо мне знают. Так в чём же я ошибаюсь?

Мод: Вы все уверены, будто если человек не говорит о «соответствии» или «дружественности», то его работа не имеет к этим проблемам никакого отношения. Но это просто слова. Если мы учтём специалистов по машинной этике, которые работают над дилеммами вагонетки в реальном мире, экономистов, занимающихся вызванной технологиями безработицей, учёных в области информатики, изучающих вопросы азимовских агентов 22, и им подобных, окажется, что людей, которые пытаются внести вклад в эти вопросы, гораздо-гораздо больше.

Пат: Что? Элиезер, это правда?

Элиезер: Насколько я знаю, нет, разве что Мод работает в АНБ и хочет рассказать о каких-то очень интересных засекреченных исследованиях. Примеры, которые она перечислила, не связаны с техническими вопросами, которые я называл «дружественностью». Прогресс в упомянутых Мод вопросах не поможет определить предпочтения, которые с достаточной для нас уверенностью приведут к хорошим результатам, даже если речь идёт о системах умнее нас, способных рассматривать гораздо большее пространство стратегий, чем мы можем представить. Также он не поможет спроектировать системы, остающиеся стабильными при самомодификации, чтобы хорошие свойства исходного ИИ сохранялись, когда он становится умнее.

Мод: И вы утверждаете, что никто другой в мире не заметил этих проблем?

Элиезер: Нет, этого я не утверждаю. Вопросы вроде «как нам задать правильные цели для искусственного интеллекта, сравнимого с человеческим?» и «что случится, когда ИИ станет настолько умён, что сможет автоматизировать исследования ИИ?» задаются уже давно. Однако они просто повисают в воздухе и незаметно, чтобы они смещали приоритеты в исследованиях. Нельзя сказать, что сообщество людей, которые вообще думают про суперинтеллект, — мало. Конечно же, есть много направлений работы над надёжностью, прозрачностью и безопасностью в каких-то конкретных системах ИИ, которые случайно могут облегчить работу над соответствием ИИ умнее человека. Однако сообщество людей, которые на ежедневной основе работают и принимают решения о том, какими техническими вопросами заняться, именно чтобы решать вопрос сверхинтеллектуального ИИ, — очень мало.

Мод: Я на это скажу, что вы просто забегаете вперёд и пытаетесь решать задачу с конца, хотя область пока просто не готова сосредоточить усилия на этом. Возможно, идущая сейчас работа не направлена на вопросы сверхинтеллекта напрямую, но нам стоит ожидать, что существенного прогресса в соответствии ИИ достигнут последователи тех, кто сейчас работает над вопросами вроде применения дронов в боевых целях или вызванной ими безработицы.

Пат (осторожно): Я хочу сказать, что если Элиезер говорит правду — а я считаю его честным человеком, пусть он по моим стандартам часто и бывает слегка безумен, — то в 2010 году в этой области почти никого нет. Не так уж много людей работают над вопросами, связанными с ИИ умнее человека, и лишь группа Элиезера и Институт будущего человечества в Оксфорде всерьёз утверждают, что занимаются вопросами соответствия ИИ. Если Элиезер утверждает, что задача, как создать ИИ умнее человека, чтобы он нас всех не убил, не относится к полю деятельности нынешних специалистов по машинной этике, то я посчитаю это достаточно правдоподобным, хотя, конечно, мне хотелось бы узнать и другие точки зрения перед тем, как сделать окончательный вывод.

Мод: Но область, в которой соревнуется Элиезер, не ограничивается людьми, пишущими статьи по этике. Любой, занимающийся машинным обучением, да и вообще любой областью информатики может внести свой вклад в проблему соответствия ИИ.

Элиезер: Гм, я бы с радостью об этом услышал. Однако победа в данном случае это «задача решена»…

Пат: Подождите, Мод. Мне кажется, вы выходите за рамки того, что может объективно проверить сторонний наблюдатель. Это всё равно что сказать, мол, Элиезер должен соревноваться со Стивеном Кингом, потому что в принципе Стивену Кингу может взбрести в голову написать фанфик по Гарри Поттеру. Если все эти прочие люди, занимающиеся ИИ, не работают над конкретными задачами, над которыми работает Элиезер, в то время как множество авторов из фэндома по Гарри Поттеру напрямую соревнуются с Элиезером в написании фанфиков, то любой разумный сторонний наблюдатель должен согласиться, что контраргумент «взгляд извне» очень существенен во втором случае, а в первом случае он довольно слаб (если вообще верен).

Мод: Выходит, написать фанфик сложнее, чем спасти мир? Вы серьёзно? Такого не может быть.

Элиезер: Пат, я не согласен с аргументами Мод, но у неё преимущество: она рационализирует верный вывод. Соответствие ИИ — сложнее.

Пат: Я не ожидаю, что вы решите весь вопрос целиком. Но внести значительный вклад в довольно специализированной области знания, которой занимаются очень мало людей, должно быть проще, чем оказаться самым успешным человеком в области, в которой работают множество других.

Мод: Бред какой-то. Нельзя даже сравнивать писателей фанфиков с экспертами по машинному обучению и профессорами ведущих университетов, которые способны внести гораздо более впечатляющий вклад в исследования сильного ИИ.

Элиезер: Гм. Прорыв в исследованиях сильного ИИ может быть впечатляющим, но без соответствия ИИ…

Пат: А вы сами пробовали писать фанфики? Попробуйте. Вы поймёте, что это намного сложнее, чем вам кажется. Если вы хороши в математике, это ещё не означает, что вы можете вот так взять и…

(Незнакомец в маске поднимает руку и щёлкает пальцами. Время останавливается. Затем Незнакомец в маске выжидающе смотрит на Элиезера-2010.)

Элиезер: Гм. Незнакомец в маске… Вы представляете, что тут происходит?

Незнакомец: Да.

Элиезер: Благодарю за лаконичный и содержательный ответ. Не будете ли вы любезны объяснить, что тут происходит?

Незнакомец: Пат прекрасно знаком с иерархией статусов в сложившемся сообществе фэндома по Гарри Поттеру, в котором есть свои ритуалы, призы, политика и так далее. Однако Пату в силу литературной гипотезы не хватает интуиции на тему, насколько дерзко пытаться внести вклад в соответствие ИИ. Если мы Пата расспросим, скорее всего выяснится, что он полагает, что соответствие ИИ — это круто, но не астрономически важно, или что существует множество других экзистенциальных рисков такого же уровня. Если бы Пат, как вы, верил, что долгосрочные последствия для цивилизации в значительной степени зависят от решения проблемы соответствия, скорее всего, он инстинктивно считал бы эту задачу более престижной. Всё, что он знает о задаче на объектном уровне и о том, сколько людей ей занимаются, осталось бы неизменным, но ощущаемый статус задачи возрос бы.

Мод, в свою очередь, наоборот незнакома с политическими деталями и динамикой статусов среди поклонников Гарри Поттера, но очень чувствительно относится к важности задачи соответствия. Поэтому для Мод интуитивно очевидно, что для внесения вклада в работу над соответствием ИИ требуется гораздо более впечатляющая лицензия героя, чем для написания лучшего в мире фанфика по Гарри Поттеру. Пат этого не понимает.

Элиезер: Но ведь идеи в области соответствия ИИ нужно формализовать, и полученный формализм должен удовлетворять одновременно множеству разных требований, причём довольно точно. Это очень абстрактная задача с огромным количеством ограничений, потому что нужно вписать неформальную задачу в правильную формальную структуру. Да, при написании художественной литературы мне нужно жонглировать такими штуками как сюжет, персонажи, напряжение, юмор, но всё это остаётся когнитивной задачей с гораздо меньшим числом ограничений…

Незнакомец: Эти соображения вряд ли приходили в голову Пату или Мод.

Элиезер: Важно ли то, что я планирую тратить на исследования гораздо больше усилий, чем на написание художественных книг? Если «Методы» не получатся сразу, я быстро сдамся.

Незнакомец: Извините. Позволено вам делать что-нибудь высокостатусное или нет, не может зависеть от того, сколько, по вашим словам, вы на это планируете потратить сил. Ведь «каждый может так сказать». Без этого нельзя было бы осаживать претендентов. Что совершенно ужасно.

Элиезер: … … Есть ли какой-нибудь организующий принцип, делающий всё это осмысленным?

Незнакомец: Полагаю, самые важные понятия, которых вам не хватает: неадекватность цивилизации и поддержание статуса в иерархии.

Элиезер: Просветите меня.

Незнакомец: Вы понимаете, как Пат пришёл к оценкам, что должно быть тысяча фанфиков по Гарри Поттеру, сравнимых с «Методами»? И понимаете, почему я прослезился, вообразив такой мир? Представьте, что Мод совершает ту же самую ошибку. Представьте мир, в котором всякий необразованный невежа вроде вас не в состоянии достоверно оценить шансы на то, чтобы внести серьёзный вклад в соответствие ИИ, не говоря уже о том, чтобы чего-то достичь, потому что люди пытаются заниматься серьёзной технической работой с 1960-х. В этом мире люди довольно много думали над этой задачей, вкладывали всю свою смекалку, считали результат довольно важным и потому старались убедиться, что они работают над правильной задачей и используют надёжные технологии. Функциональная теория принятия решений изобретена в 1971 году, через два года после публикации Роберта Нозика «Задача Ньюкома и два принципа выбора». Все полагают, что у человеческих ценностей высокая колмогоровская сложность. Все понимают почему, если вы программируете максимизатор ожидаемой полезности с функцией полезности U, а на самом деле вы под ней подразумевали V, то у U-максимизатора появятся инструментальные стимулы убедить вас в том, что он V-максимизатор. Никто не предполагает, что можно «просто выдернуть вилку из розетки» у чего-то гораздо умнее его. И все прочие мировые крупномасштабные активности и институты изменились соответственным образом.

Мы можем назвать такой мир «адекватным миром» и противопоставить его ныне существующему. У «адекватного мира» есть свойство, которое можно назвать «неиспользуемость» — или, по крайней мере, «неиспользуемость Элиезером». Можно провести аналогию. Вы не можете предсказать изменение стоимости акций Майкрософт на 5% в ближайшие шесть месяцев. Возьмём это свойство акций из S&P 500 и отмасштабируем на всю планету: вы не можете превзойти экспертов, вы не можете найти познаваемую ошибку. В «адекватном мире» эксперты всё равно совершают ошибки, они не идеальны. Но на групповом уровне они умнее и точнее, чем Элиезер Юдковский, поэтому вы не в состоянии понять, что является эпистемической или моральной ошибкой, точно так же, как вы не в состоянии понять, отклонилась ли цена на акции Майкрософт от рыночной вверх или вниз.

Элиезер: Ладно… Я могу понять, почему рассуждения Мод были бы разумны в «адекватном мире». Но как она согласовывает аргументы, приводящие к её выводам, с миром, в котором мы живём и который значительно отличается от «адекватного»? Не похоже, что Мод в состоянии сказать: «Смотри, очевидно, проблема уже решается», потому что проблема, очевидно, не решается.

Незнакомец: Предположим, вы инстинктивно регулируете претензии на статус, стараясь добиться того, чтобы никто не получил статус выше, чем заслуживает.

Элиезер: Ладно…

Незнакомец: Это поощряет поведение, которые вы назвали «лицензия героя». Ваша текущая модель считает, что люди прочли слишком много книг, где протагонист родился под знаком сверхновой, у него есть легендарный меч, и они не понимают, что реальность устроена не так. Или, например, люди связывают достижения Эйнштейна с его нынешним престижем, не осознавая, что до 1905 года Эйнштейну никто не предсказывал величайшую судьбу.

Элиезер: Верно.

Незнакомец: Неверно. Ваша модель статуса героя заключается в том, что за героическую службу племени должна быть награда. Вы считаете, что, хотя, конечно же, нельзя разрешать людям претендовать на статус героя, если они пока ещё не послужили племени, но ни у кого не должно быть интуитивных возражений против того, что кто-то попробует племени послужить. Да, при условии, что желающий тщательно подчеркнёт, что пока он ещё ничего не добился и не считает, что ему уже положен высокий статус.

Элиезер: …и это неверно?

Незнакомец: Для «нечутких к статусу» людей, вроде вас, эта модель прекрасно работает. Но обычно эмоции в отношении статуса работают не так. Если коротко, для того, чтобы претендовать на какой-то высокий статус, вы уже должны получить какой-то статус. И у большинства людей это довольно базовое ощущение, нельзя сказать, что кто-то этому учит.

Элиезер: Но до 1905 года Эйнштейн работал в патентном бюро. У него даже не было учёной степени. В смысле, Эйнштейн был нетипичным работником патентного бюро, и, без сомнения, он это понимал, но сторонний наблюдатель, посмотрев на его резюме…

Незнакомец: Мы сейчас говорим не об эпистемических предсказаниях. Это просто факт о том, как работают человеческие эмоции, когда дело касается статусов. В глазах Пата наличие определённой вероятности написать самый популярный фанфик по Гарри Поттеру идёт вместе с определённым статусом. В глаза Мод наличие определённой вероятности внести важный вклад в проблему соответствия ИИ идёт вместе с определённым статусом. Поскольку ваш текущий статус в соответствующей иерархии они оценивают гораздо ниже, вы не имеете права заявлять о соответствующих оценках вероятностей или вести себя так, как будто считаете, что они верны. Вам нельзя просто попробовать и посмотреть, что получится, потому что это подразумевает, что какая-то вероятность успеха у вас есть. Сама претензия на то, что вы можете взять и попробовать, — уже претензия на статус и потому вас нужно осадить. Если этого не сделать, любой сможет претендовать на слишком высокий статус, и это будет ужасно.

Элиезер: Хорошо. Но как отсюда происходит переход к заблуждениям об адекватности цивилизации?

Незнакомец: Благодаря обратной цепи рационализаций, возможно, с примесью веры в справедливый мир и искажения «статус-кво». Если сказать экономисту, что можно каждый год удваивать свои вложения, продавая и покупая акции Майкрософт, пользуясь каким-то простым алгоритмом, он очень удивится. После этого экономист начнёт прикидывать, почему этот самый алгоритм не сработает, какой в нём есть незаметный риск — ему захочется сохранить идею о неиспользуемости рынка ценных бумаг, и это вполне естественно.

Пат пытается сохранить идею о том, что «рынок фанфиков» «неиспользуем Элиезером» — поскольку интуитивно ему кажется, что у вас слишком низкий статус, чтобы добиться успеха на этом рынке. Это приводит его к мысли, что существует ещё тысяча людей, которые пишут фанфики по Гарри Поттеру не хуже, чем вы. В результате Пат воображает мир, который адекватен в соответствующем отношении. В этом мире усилия авторов дёшево конвертируются в популярные истории, поэтому простой смертный не способен предсказать, что он напишет более популярную историю. А адекватность мира в прочих отношениях гарантирует, что любой посторонний, который на самом деле способен переиграть этот рынок — например, Нил Гейман, — уже богат, почитаем и так далее.

И это распространённое явление. Если некто верит, что у вас недостаточно высокий статус, чтобы делать предсказания лучше, чем Европейский Центральный Банк, он будет считать, что Европейский Центральный Банк справляется со своей работой довольно хорошо. Экономист не скажет, что Европейский Центральный Банк обязательно хорошо справится со своей работой: он порекомендует обратить внимание на стимулы, на то, что лица, принимающие решения, не получат гигантские бонусы за то, что экономика Европы улучшится. Однако невозможно, чтобы Элиезер был умнее Европейского Центрального Банка, ведь в этом случае нарушится иерархия статусов. Чтобы мировую иерархию статусов нельзя было оспорить, она должна быть правильной и мудрой, чтобы она была правильной и мудрой, она должна быть неиспользуемой. Интуитивное понимание неадекватности цивилизации очень сильно помогает рассеивать миражи вроде лицензии героя или эпистемологии скромности. Ведь когда эпистемология скромности своей цепью рационализаций объясняет, почему некто не в состоянии совершить что-то значимое, она приводит к необходимости заявить об адекватности цивилизации.

Элиезер: Но цивилизация в некоторых областях может быть неиспользуемой, даже если она не является адекватной. А вы, кажется, утверждаете, что Пат и Мод в основном заботит неиспользуемость.

Незнакомец: Можно воображать мир, где ни у кого нет стимулов заниматься проблемой соответствия ИИ и потому ей почти никто не занимается, более того, люди, которые знают о проблеме и хотели бы её решать, всё равно не занимаются ей, потому что конкуренция приводит к тому, что они лишаются каких-то ценных ресурсов. Можно воображать мир, который неиспользуем для вас, но используем для многих других. Однако заявление об адекватности цивилизации подтверждает текущую иерархию статусов гораздо сильнее и гораздо надёжнее. Идея адекватного мира более точно соответствует интуитивному представлению, что самые уважаемые и самые авторитетные люди мира заслуженно занимают своё место: они слишком хорошо организованы, слишком хорошо информированы, действуют в самых лучших намерениях и потому человек с улицы не в состоянии распознать творение Молоха вне зависимости от того, способен он с ним что-то сделать или нет. Кроме того, чтобы разговаривать о неиспользуемой неадекватности, нужно лучше знать микроэкономику, о том, как люди пытаются использовать рынки и какие проблемы они при этом пытаются решать. Заявить об адекватности цивилизации гораздо легче.

Неадекватности цивилизации — это основная причина, почему мир в целом нельзя назвать неиспользуемым в той же мере, как краткосрочный рынок ценных бумаг. А эпистемология скромности, грубо говоря, утверждает, что вы не можете прогнозировать неиспользуемость мира, потому что не можете быть уверены, что ориентируетесь в чём бы то ни было лучше экспертов.

Элиезер: Это… я, кажется, понял… Но я всё ещё не понимаю, как на самом деле думает Мод.

Незнакомец: Что ж, смотрите.

(Незнакомец в маске поднимает руку и снова щёлкает пальцами. Время запускается снова.)

Пат: …стать лучшим в литературе, потому что какие-то там фанфикописатели тупые.

Мод: Мой дорогой друг, пожалуйста, задумайтесь о ваших собственных словах. Если проблема соответствия ИИ действительно настолько важна, как уверяет Элиезер, оказался ли бы он одним из немногих людей, которые над ней работают?

Пат: Ну, всё выглядит так, будто так и есть.

Мод: Значит, проблема не может быть такой важной, как он уверяет. Иначе бы получилось, что какой-то странный одиночка обнаружил важную проблему, над которой работает лишь он и ещё парочка человек. А это означало бы, что все остальные, занимающиеся этой областью, идиоты. Кто такой Элиезер, чтобы игнорировать академический консенсус о том, что проблема соответствия ИИ не слишком интересна, чтобы над ней работать?

Пат: Я вполне могу представить некоторые препятствия, с которым, возможно, сталкивается типичный учёный, который хочет работать над соответствием ИИ. Например, быть может, на такую работу сложно получить грант.

Мод: Если на неё тяжело получить грант, значит, люди, распределяющие гранты, справедливо рассудили, что эта проблема не является приоритетной.

Пат: Вы хотите сказать, что в финансировании науки уже всё настолько хорошо, что все стоящие направления исследований уже кем-то разрабатываются?

Незнакомец: Кто конкретно из людей, распределяющих гранты, будет получать меньше в мире, где соответствие ИИ — важная проблема, но на неё не выделяются гранты? Если никто не лишается своих премий или ещё чего-нибудь ценного, то вот вам и ответ. Никакой загадки здесь нет.

Мод: Все свидетельства прекрасно согласуются с гипотезой, что гранты не выделяются, потому что грантодатели приняли продуманное и информированное решение: соответствие ИИ — не проблема вовсе.

Элиезер: Пат, спасибо вам за защиту, но, думаю, я здесь объясню лучше. Как я уже упоминал, вопросы вроде взрыва интеллекта и мысль о том, что при построении системы целеполагания ИИ это надо как-то учесть, придумал не я. Это довольно широко известные идеи, и люди любого уровня важности зачастую охотно соглашаются обсудить их с глазу на глаз. Хотя, конечно, есть разногласия относительно величины риска и относительно того, какие именно усилия будут более всего полезны, чтобы его снизить. Вы можете найти обсуждение этого вопроса в популярнейшем вузовском учебнике по ИИ: «Искусственный интеллект: современный подход»23. Поэтому нельзя утверждать, что среди исследователей есть консенсус о том, что эта проблема не важна.

Мод: Значит, грантодатели скорее всего тщательно оценили эту проблему и решили, что процветание человечества в долгосрочной перспективе лучше всего обеспечить путём прогресса в области ИИ каким-то ещё способом, а над соответствием работать, лишь когда мы достигнем некоего порога возможностей. По всей вероятности фонды ждут именно этого, чтобы запустить широкомасштабное исследование в области соответствия ИИ.

Элиезер: И как именно грантодатели могли прийти к подобному решению, не изучив задачу каким-нибудь заметным образом? Если всё сообщество, выделяющее гранты, способно прийти к консенсусу такого уровня, то где статьи и анализы, которыми они воспользовались, чтобы прийти к своему решению? Каковы аргументы сторон? Ваши слова звучат так, будто вы говорите о тайном заговоре компетентных грантодателей из сотни различных организаций, которые каким-то образом получили доступ к литературе о стратегических и технических исследованиях — или даже провели их сами, — о которых не слышал ни Ник Бостром, ни я. Благодаря этим исследованиям эти грантодатели установили, что задачи, которые решаются сейчас, которые кажутся важными и поддающимися исследованию, вряд ли к чему-то приведут, однако в будущем всё будет развиваться в каком-то конкретном известном направлении с известной скоростью, что подготовит почву для позднейшего скоординированного вмешательства.

Вы утверждаете, что хотя все исследователи привычно на кофе-брейках обсуждают самоулучшающийся ИИ и законы Азимова, существуют какие-то тайные веские причины того, почему изучать эту задачу — плохая идея? И все грантодатели пришли вместе к этой мысли, не оставив никакого следа о том, как именно они приняли это решение? Я просто… В том, как устроено распределение грантов и в функционировании научного сообщества существует столько прекрасно известных и абсолютно естественных ошибок, что соответствие ИИ вполне может оставаться критично важной проблемой, которую тем не менее учёные вовсе не рвутся решать. Однако вы постулируете огромный мировой заговор из никому не известных компетентных людей, которые руководствуются тайными анализами и обсуждениями. Как вы вообще до этого дошли?

Мод: Потому что иначе…

(Незнакомец снова щёлкает пальцами.)

Незнакомец: Ну что же, Элиезер-2010, ответьте на свой вопрос. Как Мод до этого дошла?

Элиезер: С точки зрения Мод… Чтобы всякие не слишком значимые или неавторитетные личности не решали важные задачи, не должно быть низко висящих плодов, про которые можно понять, что это низко висящий плод. Если существуют важные задачи, не затронутые системой грантов и прочих вознаграждений в научной среде, то кто-нибудь вроде меня может понять, что над ними стоит работать. Если есть какие-то проблемы, связанные с грантодателями или стимулами в научной среде, и кто-нибудь вроде меня может опознать эти проблемы, то становится вероятно, что кто-то не важный вроде меня узнает, что есть важная задача, над которой никто не работает. Декларируемое Мод состояние научной системы да и всего мира в целом — это цепочка рассуждений, вызванная необходимостью не допустить существование низко висящих плодов.

Сперва Мод пыталась утверждать, что задача о соответствии ИИ уже активно исследуется, как это и было бы в адекватном мире, который вы описали. Когда эту позицию стало сложно защищать, она переключилась на утверждение, что авторитетные аналитики изучили задачу и дружно решили, что она не важна. Когда и эту позицию стало сложно защищать, она переключилась на утверждение, что авторитетные аналитики изучили задачу и дружно изобрели какую-то лучшую стратегию, которая включает временную приостановку работ над этой задачей.

Незнакомец: И у этих очень разных гипотез есть общее свойство: они утверждают, что в особо ценных исследованиях существует что-то похожее на эффективный рынок: люди и коллективы с достаточно высоким статусом в научной системе не могут ошибиться так, чтобы это стало заметно.

Возможно, дальше бы Мод предположила, что лучшие исследователи уже определили, что это лёгкая задача. Или что есть тайный консенсус, что сильный ИИ не появится ещё несколько веков. По моему опыту воображение у людей вроде Мод иногда не знает границ. Всегда найдётся какой-то ещё вариант.

Элиезер: Но почему люди всё это придумывают? Никакой экономист не сказал бы, что тут можно обнаружить эффективный рынок.

Незнакомец: Мод скажет, конечно, система не идеальна. Однако продолжит, что мы тоже не идеальны. Все, кто распределяют гранты и научные должности, ничуть не хуже нас и делают всё, что в их силах, чтобы исправить те искажения в системе, которые в состоянии заметить.

Элиезер: Но ведь это явно противоречит и наблюдениям, и экономической теории стимулов.

Незнакомец: Да. Однако это принимается за истину. Ведь если эксперты могут ошибаться, значит мы тоже можем ошибаться, верно? Может быть, это у нас систематически неправильные стимулы и лишь краткосрочные вознаграждения.

Элиезер: Но ведь находиться внутри системы с плохо спроектированными стимулами, это не то же самое, что быть неспособным определить истину в… о, я понял.

Это было очень познавательно, Незнакомец в маске. Спасибо.

Незнакомец: Спасибо за что, Элиезер? Указать человеку на проблему — не слишком большая услуга, если он ничего не может с ней сделать. Вы не получите никакого преимущества по сравнению с основной временной линией.

Элиезер: Всё равно лучше хоть немного понимать, что именно происходит.

Незнакомец: Это тоже ловушка, и мы оба это понимаем. Если вам нужна сложная теория, чтобы подтвердить, что вы видите очевидное, то со временем эта теория будет лишь усложняться и отвлекать вас. Вам придётся всё старательней перепроверять себя. Гораздо лучше просто принимать вещи такими, какие они есть, и не придумывать для этого огромных аргументов. Если вам нужно проигнорировать чей-то совет, лучше не сочинять много сложных обоснований, почему вы имеете на это право: так вам будет легче впоследствии передумать и всё же принять этот совет, если случится так, что вам он станет нравиться больше.

Элиезер: Верно. Тогда зачем вы мне всё это рассказываете?

Незнакомец: А всё это время я обращался не к вам. Последний мой урок заключается в том, что я никогда не рассказываю такие штуки себе.

(Незнакомец трижды поворачивается вокруг своей оси. Его никогда тут не было.)

  • 1. В оригинале «AI alignment». — Прим.перев.
  • 2. В оригинале «Inadequate Equilibria», на русский язык не переводилась. — Прим.перев.
  • 3. Хотя автор пишет, что этот диалог лишь дополняет «Неадекватное равновесие», мне он показался достаточно самостоятельным произведением. Не обязательно читать «Неадекватное равновесие», чтобы понять, о чём здесь идёт речь. — Прим.перев.
  • 4. Фамилия героя говорящая, и образована от слова «modest» — скромный. — Прим.перев.
  • 5. Название совместного блога Юдковского и Робина Хансона, где Юдковский начал писать свои «Цепочки». Буквально переводится как «Преодолевая искажения». Из этого блога родился коллективный блог lesswrong.com. Overcoming bias до сих пор является блогом Робина Хансона. — Прим.перев.
  • 6. Одна из основательниц CFAR. С 2016 года — президент CFAR. — Прим.перев.
  • 7. Исполнительный директор MIRI в 2011-2015 годах, в настоящее время работает в Open Philanthropy Project. — Прим. перев.
  • 8. «Цепочки» — серию эссе в блоге lesswrong.com, которая потом превратилась в книгу «Рациональность: от ИИ до Зомби» — Юдковский писал как раз в 2007 - 2009 годах. — Прим. перев.
  • 9. В оригинале S. I. Hayakawa, «Language in Thought and Action». Первоначально публиковалась под названием «Language in Action» и переводилась на русский под названием «Язык в действии». — Прим.перев.
  • 10. Юдковский здесь несколько преувеличивает. Основная работа Коржибски — «Наука и здравомыслие»(в оригинале «Science and Sanity») написана в 1933 году. Даниел Канеман родился в 1934 году. — Прим. перев.
  • 11. В оригинале Nonjon — Прим.перев.
  • 12. В оригинале «A Black Comedy» — Прим. перев.
  • 13. В оригинале Sarah1281 — Прим.перев.
  • 14. В оригинале JBern — Прим.перев.
  • 15. Известный рационалист, ведёт сайт gwern.net. — Прим.перев.
  • 16. Ord, Hillerbrand and Sandberg, «Probing the Improbable». — Прим.перев.
  • 17. Van Boven and Epley, «The Unpacking Effect in Evaluative Judgments». — Прим.перев.
  • 18. В российском сообществе чаще используется название «премортемы». — Прим.перев.
  • 19. Судя по всему, у Юдковского здесь опечатка, и на самом деле, нужно взять вероятность близкую к нулю. — Прим.перев.
  • 20. Англ. «method of imaginary updates». — Прим.перев.
  • 21. В оригинале: «Maude Stevens». В этом имени тоже читается слово «modesty» — «скромность». — Прим. перев.
  • 22. Англ. «Asimovian agents». — Прим.перев.
  • 23. В оригинале «Artificial Intelligence: A Modern Approach». — Прим.перев.
Перевод: 
Alaric
Оцените качество перевода: 
Средняя оценка: 4.3 (18 votes)

Понимание на уровне шестерёнок

Valentine

Среди бумажных дорожных карт одни полезнее других. Иногда это связано с тем, насколько хорошо карта отражает территорию, однако стоит ещё учитывать и особенности самой карты, не связанные с территорией. Например, линии на карте могут быть жирными и смазанными и из-за этого нельзя разобрать, насколько далеко дорога проходит от реки. Или, скажем, непонятно, какой дороге соответствует какая подпись.

Я хочу показать, что у моделей тоже есть свойство, которое не связано с моделируемым. Оно связано с понятностью моделируемого, но лишь в той же степени, как смазанные линии на дорожной карте связаны с понятностью этой карты.

«Насколько детерминировано сопряжены переменные в модели?» – вот что это за свойство. Я знаю, что есть несколько критериев, которые показывают в какой мере модель обладает данным свойством. Вот далеко не полный список таких критериев:

  1. Окупается ли модель? Допустим, что она окупается. Если модель будет сфальсифицирована, то сколько (и в какой степени точных) убеждений можно получить из факта её опровержения?
  2. Насколько нелепо будет предположить, что модель точна, но какая-то из её переменных может противоречить ей?
  3. Если модель точна, то можно ли вывести заново позабытое значение одной из переменных?

По-моему, множество разных тем, затронутых на LessWrong, связаны с этим крайне важным свойством. Кроме того, из него можно вывести множество идей и приёмов, но об этом позже.

Я начну с нескольких примеров, а в конце подведу итог и напишу, к чему же всё это.

Пример: шестерёнки в ящике

Взглянем на эти шестерёнки в ящике:

Картинка со скрытыми шестерёнками

(Рисунок любезно предоставлен моим коллегой, Дунканом Сабиеном.)

Пусть они представляют собой модель внутреннего устройства некой системы из шестерней. Тогда, после поворота левой шестерни против часовой стрелки правая шестерня может повернуться как по ходу движения часовой стрелки, так и против. Созданная таким образом модель не отвечает описанным выше трём критериям:

  • Модель не окупается. Допустим ты считал, что правая шестерёнка повернётся в одну сторону, но обнаружил, что она вращается в другую. Единственный вывод, который из этого можно сделать: если схема устройства проста (то есть, ничто не меняет направление вращения правой шестерни исключительно в тех случаях, когда левая шестерня вращается против часовой стрелки), то через направление вращения правой шестерёнки можно узнать, чётно ли количество всех шестерёнок в механизме или нет.
  • Правая шестерня легко может вращаться в обе стороны. Твои ожидания ничем не ограничены.
  • Ты уже сейчас не знаешь, в какую сторону вращается правая шестерня и не можешь выяснить это.

Представим, что Джо заглядывает внутрь ящика и говорит: «Правая шестерня вращается по часовой». Ты полагаешь, что Джо так скажет скорее в том случае, когда правая шестерёнка вращается по часовой, чем наоборот и это выглядит свидетельством в пользу гипотезы вращения по часовой стрелке. Чем больше людей, подобных Джо, заглядывают в ящик и говорят то же самое, тем больше накапливается свидетельств.

А теперь заглянем внутрь ящика:

Картинка с видимыми шестерёнками

…и теперь мы не понимаем, что же случилось с Джо.

Второй критерий здесь кажется мне особенно важным. Утверждение Джо и очевидная модель не могут быть верны одновременно. И не важно, сколько вообще людей согласны с утверждением Джо. Либо абсолютно все они неправы, либо твоя модель неверна. Логика неуязвима к социальному давлению. То есть, если набрать достаточно свидетельств о том, насколько хорошо твоя карта соответствует данной территории, и эти свидетельства говорят, что твоя карта в целом верна, то у тебя есть весомые эпистемические обоснования пренебречь мнением многих других людей. Собирая свидетельства о соответствии карты и территории ты скорее обнаружишь правду, чем если будешь собирать свидетельства о мнениях других людей.

Любопытно также обратить внимание на первый критерий. Предположим, что правая шестерня и в самом деле крутится по часовой стрелке в том случае, когда левая крутится против часовой. Что из этого следует? Например, из этого следует то, что твоя исходная модель (если я правильно её себе представляю) неверна. Однако она может быть неверна лишь ограниченным количеством способов. Возможно, вторая шестерня слева находится на вертикальной направляющей и, вместо того, чтобы вращаться, движется вверх. Для сравнения: фраза вроде «шестерни работают от волшебства» не даст тебе такой точности.

Объединив эти две идеи, мы переводим взгляд на Джо и замечаем, что можем сформулировать более точные утверждения, чем просто «Джо неправ». Мы знаем, что либо модель шестерней Джо неверна (например, он считает, что какая-то из шестерёнок перемещается по вертикали), либо его модель расплывчата и не так ограничена, как наша (например, он просто сосчитал шестерни и ошибся), либо Джо лжёт. Первые два варианта дают проверяемые предсказания: если его модель неверна, она неверна каким-то конкретным образом; если его модель расплывчата, то должно быть место, где она не удовлетворяет тем трём критериям внутренней связанности моделей. Если во время разговора с Джо мы сконцентрируемся на этих двух возможностях и выяснится, что обе они не соответствуют действительности, то станет ясно, что Джо просто несёт чушь (либо мы не придумали четвёртый вариант).

Благодаря этому примеру у нас в CFAR появился термин: «шестерёночная модель» или «модель на основе шестерёнок». Когда мы подмечаем взаимосвязь, мы говорим о «поиске шестерёнок». Я буду использовать этот термин и дальше.

Пример: арифметика

При сложении 25 и 18 столбиком нужно перенести 1 в разряд десятков. Обычно при этом пишут единицу над двойкой в числе 251.

Забавно то, что можно складывать числа столбиком, совершенно не понимая, что означает эта единица над двойкой и по какой причине её надо ставить.

На самом деле, это достаточно важная проблема при обучении математике. На практике есть расхождение между тем, чтобы (а) запомнить и отработать алгоритмы, которые позволяют быстро вычислять ответы, и (б) «по-настоящему понять» как именно работают эти алгоритмы.

Увы, в сфере образования люди часто устраивают философские дебаты о том, что значит «понимать», и меня это довольно сильно раздражает. Обычно эти споры выглядят так:

  • Некто А: Ученики говорят, что они переносят 1, потому что им так сказал учитель. Значит, они не понимают алгоритм сложения по-настоящему.
  • Некто Б: Что имеешь в виду под «по-настоящему понимают»? А что не так с тем, чтобы просто следовать инструкции, полученной от человека, который разбирается в предмете?
  • А: Но получается, это поведение обосновано социальными, а не математическим причинами.
  • Б: Математическое обоснование социально. Формы доказательств, используемые топологами, не будут приняты аналитиками. Что именно в математике будет считаться «доказательством» или «обоснованием» оговаривается социально.
  • А: Да ладно. Мы не можем просто договориться, что $e = 3$2, и объявить это истиной. Возможно, способ, которым мы обсуждаем математику является социальным конструктом, но говорим-то мы о чём-то реальном.
  • Б: Я не уверен, что это так. И даже если это на самом деле так, то как вы можете понять, что говорите о «чем-то реальном», а не об одном из социальных конструктов, которыми мы пользуемся, чтобы делиться своими мнениями?

И так далее.

(Хотел бы я, чтобы такие споры проходили в атмосфере совместного поиска истины. К сожалению, научное сообщество этого не ценит, поэтому вряд ли я этого дождусь.)

Мне кажется, А пытается указать на то, что у таких учеников модель алгоритма сложения столбиком не шестерёночная (и явно было бы лучше, если бы она стала таковой). Полагаю, что это проясняет и то, что что говорит А, и почему это так важно. Сверимся с нашими критериями:

  • Алгоритм сложения столбиком определённо окупается. Например, если отсчитать 25 жетонов, а потом ещё 18, а зачем подсчитать общее их число, то оно должно соответствовать тому, что предсказано алгоритмом. Если же оказалось, что это число не совпадает с количеством подсчитанных жетонов, то ученик может придти лишь к выводу, что алгоритм сложения столбиком не работает для жетонов и больше ничего. (Напротив, если бы я попал в такую ситуацию, то подумал бы, что я либо ошибся в алгоритме, либо ошибся в подсчёте, и был бы весьма уверен, что хотя бы одна из этих двух причин верна.)
  • Ученик, наверное, легко может представить себе мир, в котором алгоритм работает и без переноса 1. Это значит, что его модель — во всяком случае, в том виде, как мы её представляем — недостаточно ограничена. (Мой же мозг взрывается при попытке представить, как можно получить правильный ответ, если перенос единицы будет ошибкой.)
  • Мы ожидаем, что если ученики забудут указания учителя на случай, когда сумма превышает 9, то они самостоятельно не осознают необходимости перенести единицу в следующий разряд. (Если бы я и забыл о правиле переноса, то я был бы озадачен этим лишним десятком и придумал что-нибудь математически эквивалентное «переносу 1».)

Кажется, в этом контексте полезно табуировать слово «понимать».

Пример: моя мать

Моя мать очень любит изучать историю.

Прямо сейчас, это, вероятно, несвязанный ни с чем случайный факт в твоей голове. Если через месяц я спрошу тебя: «Нравится ли моей матери изучать историю?», ты можешь попытаться вспомнить ответ но с тем же успехом можешь решить, что мир устроен по-другому.

Но только не в моём случае. Если я забуду, как именно мама относится к изучению истории, то я смогу сделать разумное предположение, основанное на общей интуиции. Если я вдруг узнаю, что она не любит историю, это вряд ли окажется для меня крушением основ; в то же время я буду всерьёз озадачен, и задумаюсь, верна ли моя интуиция по поводу того, почему мама увлечена растениями и почему ей нравится общаться с семьёй. Я задумаюсь о том, что недостаточно хорошо понимаю, что за человек моя мать.

Как можно заметить, это применение критериев 1 и 3. При этом, моя модель моей матери не полностью шестерёночна. Я не могу сказать, что она чувствует прямо сейчас или какое из определений деления3 ей ближе. Но критерии показывают, что моя модель моей матери шестерёночнее твоей модели.

Этим примером я хочу подчеркнуть, что свойство «шестерёночности» у моделей небинарно. Это скорее характеристика в диапазоне от «набор случайных поверхностных бессвязных фактов» до «четкой формальной системы с выверенными логическими умозаключениями». (По-крайней мере, так я сейчас представляю себе этот диапазон.)

Кроме того, я считаю, что «узнать» человека как раз и означает повысить шестерёночность своей модели этого человека. «Узнать» человека — это не запомнить несколько разрозненных фактов о том, где он работает, сколько у него детей и чем он увлекается. «Узнать» человека — это значит уточнить степень своего искреннего удивления при получении нового факта, который не вписывается в уже имеющуюся модель твоего знакомого.

(А вот то, насколько твоя шестерёночная модель на самом деле подходит кому-то, кого ты знаешь — это уже вопрос эмпирического характера и относится он к соответствию карты и территории. Сейчас я бы хотел сосредоточиться только на свойствах карт.)

Я считаю, что такие едва шестерёночные модели позволяют нам предполагать, что именно ведущий популярной детской телепередачи4 думает про тех людей, которые издеваются над кошками в Хэллуоин, даже если он никогда не упоминал эту тему. Исходя из критерия №2, вероятно, ты будешь весьма потрясён, если получишь веские свидетельства в пользу того, что он оказался одним из таких людей, и скорее всего, таких свидетельств потребуется действительно много. Согласно критерию №1 тебе потребуется обновить большое количество своих убеждений об этом человеке. Предполагаю, что многие пережили что-то вроде «Да кто же он такой на самом деле?!», когда против Билла Косби выдвинули множество обвинений в совершении преступления5.

Пример: гироскопы

Наблюдая поведение гироскопа большинство людей невольно удивляются. Даже если они логически знают, что подвешенный гироскоп не упадёт, а станет вращаться, то они обычно всё-таки чувствуют, что это как-то странно. Даже те, кто интуитивно понял работу гироскопов, поначалу привыкали к этому и, скорее всего, считали гироскопы удивительными и контринтуитивными.

Как ни странно, для большинства людей допустимо представить себе мир, в котором физика работает точно так же, как в нашем, и только подвешенные за один конец гироскопы сначала падают, а после продолжают вращаться.

Если вы из таких людей, это значит что ваша физическая модель гироскопов не удовлетворяет второму критерию шестерёночности.

Истинная причина, по которой гироскопы ведут себя именно так, как они себя ведут, выводится из трёх законов Ньютона. Представим модель вращения, где а) исполняются три закона Ньютона, и б) подвешенный за один конец гироскоп не вращается, а падает — такая модель не будет согласованной. И если а) и б) кажутся тебе допустимыми одновременно, в твоей модели вращения не хватает шестерёнок.

Вот что привлекает меня в физике — вообще всё состоит из шестерёнок. По-моему, физика — это система шестерёнок, которая возникает при наблюдении за поведением любого физического объекта, вопрошании «Почему он ведёт себя так?» и поиске подходящих шестерёнок. Хотя этот уровнь абстрации и отличается от «шестерёнок людей», но мы ожидаем(по-крайней мере, теоретически), что по мере развития физики удастся соединить шестерёнки механики с шестерёнками, движущими романтическими отношениями.

Хочу сразу пояснить, я не утверждаю, что мир сделан из шестерёнок — такое утверждение содержит ошибку типизации. Как я считаю, суть в самом свойстве шестерёночности, которое позволяет строить более полезные модели — чем модель шестерёночнее, тем больше истины она позволяет узнать о мире.

Шестерёночность это ещё не всё

Подчеркну, что хотя я и считаю, что при прочих равных, чем больше шестерёнок, тем лучше, у моделей есть и другие важные свойства.

Самое очевидное из них — это точность. Большую часть этого эссе я его умышленно игнорировал. Именно для этого свойства крайне важна добродетель эмпиризма. Я же здесь эмпиризм игнорировал, но надеюсь, что не противоречил ему.

Другое важное свойство — генеративность. Приводит ли модель к получению полезного опыта (что бы не значило слово «полезный» в этом контексте)? К примеру, многие воззрения о Боге, божественном или других подобных вещах слишком абстрактны, чтобы окупаться. Однако некоторые люди всё же считают их полезными для переосмысления эмоционального восприятия красоты, смыслов и других людей. Я знаю несколько бывших атеистов, которые считают, что благодаря принятию христианства сделались гораздо более приятными людьми и наладили личные отношения. С эпистемической точки зрения тут есть чего опасаться — религиозный способ мышления проникает в утверждения о реальном устройстве мира. Но если ты эпистемически осторожен, то, возможно, стоит изучить, как использовать силу веры без эпистемологического ущерба.

Так же я считаю, что применение модели имеет смысл даже при нехватке в ней шестерёнок. На самом деле, во многих ситуациях у нас просто нет другого выбора — подавляющее большинство наших моделей не получается полностью связать с физикой. Например, я хотел бы подарить матери некую книгу, поскольку считаю, что она ей понравится; однако в рамках моей модели я могу придумать вариант, почему книга ей может оказаться не интересна. Да, моя модель матери ограничена довольно слабо, но я не считаю, что из-за этого (а) я не должен использовать эту модель или (б) не следует изучать, «почему» я могу оказаться прав и не прав. (Я отношусь к этому, как к предварительным вычислениям: каким бы не оказался мир, мои модели становятся более «чёткими», в них появляется больше шестерёнок. Просто так получается, что я заранее знаю, где они появятся.)

Я это упоминаю, потому что, кажется, зачастую в рационалистских кругах считают, что не стоит обсуждать модели, в которых не хватает шестерёнок. Я против такого подхода. Конечно, я считаю, что очень важно следить за шестерёночностью твоей модели, а не замечать нехватку шестерёнок так и просто просто эпистемически опасно. Очень полезно уметь отличать, хотя бы для себя, в какой модели есть шестерёнки, а в какой — нет. Однако я думаю, что, когда мы пытаемся выстроить правильную эпистемологию, есть и другие качества, не менее важные.

Я бы хотел, чтобы мы помнили о причине, по которой шестёрнки ценны на самом деле, а не зацикливались на шестерёночности самой по себе.

Что дальше

Я считаю, что концепция «шестерёнки в моделях» очень помогает продираться через непонятное. Она защищает наше понимание мира от социальной глупости и требует некоторой строгости мышления, которая, на мой взгляд, объединяет многие идеи в Цепочках.

Я собираюсь развивать эту концепцию и дальше вместе с другими идеями. В частности, я ещё не говорил откуда мы вообще знаем, что шестерёнки достойны внимания. Поэтому, хоть я и рассматриваю шестерёнки как мощное оружие в нашей войне против низкого уровня здравомыслия6, я полагаю, что важно изучить кузницу, в котором оно ковалось. Возможно, это не будет моим следующим постом, но, надеюсь, одним из ближайших.

  • 1. В России, насколько я понимаю, часто просто ставят точку. — Прим. перев.
  • 2. Основание натурального логарифма, математическая константа приблизительно равная 2,71828 — Прим. перев.
  • 3. В оригинале используется оборот «Partitive and Quotitive Division». Точный русский аналог пока найти не удалось. Речь о том, что операцию деления можно определять по разному. Например, когда мы делим 12 на 3, это может означать, что мы хотим делим 12 объектов на 3 части и хотим узнать, сколько объектов в каждой части. Или это может означать, что мы хотим узнать, сколько частей по 3 объекта получится из 12 объектов. — Прим.перев.
  • 4. В оригинале Mr. Rogers. — Прим.перев.
  • 5. Билл Косби — американский актёр, долгое время лидировавший в индексах общественного одобрения рекламной индустрии, был одним из самых узнаваемых и убедительных рекламных лиц. — Прим. перев.
  • 6. Не переведено дословно: «низкого уровня здравомыслия» - в оригинале «sanity drought», дословно «засуха здравомыслия», игра слов с названием эссе Юдковского «Raising the Sanity Waterline». — Прим. перев.
Перевод: 
gihh, Alaric, ildaar
Оцените качество перевода: 
Средняя оценка: 5 (Всего оценок: 1)

Литания против гуру

Элиезер Юдковский

Я твой герой!
Я твой мастер!
Изучай мои искусства
Ищи мой путь

Учись, как учился я
Ищи, как искал я

Завидуй мне!
Равняйся на меня!
Соперничай со мной!
Превзойди меня!

Оглянись,
Улыбнись,
И иди вперед!

Я никогда не был твоим городом,
Я был лишь одним из участков твоего пути.

Английский (исходный) вариант:

I am your hero!
I am your master!
Learn my arts,
Seek my way.

Learn as I learned,
Seek as I sought.

Envy me!
Aim at me!
Rival me!
Transcend me!

Look back,
Smile,
And then—
Eyes front!

I was never your city,
Just a stretch of your road.

Перевод: 
Remlin
Оцените качество перевода: 
Средняя оценка: 4.2 (6 votes)

Соответствие ИИ целям оператора

Четыре предпосылки

Нейт Соарес

Миссия MIRI – сделать так, чтобы создание искусственного интеллекта умнее человека привело к положительным последствиям. Почему эта миссия важна и почему мы считаем, что уже сегодня над этим можно работать?

В этом и в следующем эссе я попробую ответить на эти вопросы. Здесь я опишу четыре, по моему мнению, самые важные предпосылки, на основе которых появилась наша миссия. Я попытаюсь явно сформулировать утверждения, на которых базируется моё убеждение в том, что наша работа очень важна. Этому же вопросу посвящены, например, «Пять тезисов» Элиезера Юдковского и «Почему MIRI» Люка Мюльхаузера.

Утверждение 1: У людей есть очень универсальная способность решать задачи и достигать целей в самых разных областях

Мы называем эту способность «интеллектом» или «универсальным интеллектом». Это определение не является формальным: если бы мы точно знали, что такое интеллект, нам было бы гораздо легче запрограммировать его. Однако мы считаем, что такое явление как универсальный интеллект существует, пусть пока мы и не можем повторить его в коде.

Альтернативный взгляд: Универсального интеллекта не существует — вместо него у людей есть набор отдельных узкоспециализированных модулей. Компьютеры будут совершенствоваться в определённых узких задачах, таких как шахматы или вождение автомобиля, но никогда не станут универсальными, потому что универсальность недостижима. (Аргументы в пользу этой точки зрения приводил Робин Хансон.)

Короткий ответ: Поскольку люди осваивают области, совершенно чуждые их предкам, гипотеза «отдельных модулей» представляется мне неправдоподобной. Я не заявляю, что универсальность интеллекта – это какое-то нередуцируемое оккультное свойство. Предположительно, оно проистекает из набора когнитивных механизмов и их взаимодействий. Однако в целом именно это делает людей куда более когнитивно гибкими, чем, скажем, шимпанзе.

Почему это важно: Люди начали доминировать над другими видами не за счёт большей силы или ловкости, а за счёт большего интеллекта. Раз некая ключевая часть этого обобщённого интеллекта смогла эволюционировать за несколько миллионов лет, прошедших с нашего последнего общего предка с шимпанзе, возможно, некоторое небольшое количество озарений приведут к тому, что инженеры смогут создать мощный универсальный ИИ.

Дальнейшее чтение: Саламон и др. «Насколько интеллект понятен?»

Утверждение 2: ИИ может стать намного умнее людей

Большинство исследователей в MIRI не уверены, когда именно будет разработан превосходящий человека ИИ. Мы, однако, ожидаем, что: (а) искусственный интеллект, равный человеческому, однажды появится (если не случится каких-то катастроф, то вероятно, в течении века); и (б) компьютеры могут стать значительно умнее любого человека.

Альтернативный взгляд 1: Мозг делает что-то особенное, что нельзя воссоздать на компьютере.

Короткий ответ: Мозги – это физические системы, и если верны некоторые версии тезиса Чёрча-Тьюринга, то компьютеры могут в принципе воссоздать связь ввода и вывода любой физической системы. К тому же, заметим, что «интеллект» (в моём использовании термина) – это способность решения задач: даже если есть какая-то специальная человеческая черта (как квалиа), которую нельзя воссоздать на компьютере, это не важно, если только эта черта каким-то образом не мешает нам проектировать системы, решающие задачи.

Альтернативный взгляд 2: Алгоритмы, на которых основывается универсальный интеллект, настолько сложны и недоступны расшифровке, что люди не смогут запрограммировать что-то подобное ещё много веков.

Короткий ответ: Это звучит неправдоподобно с учётом эволюционных свидетельств. Род Homo отделился от других всего 2.8 миллиона лет назад, и прошедшего времени – всего мгновения с точки зрения естественного отбора – было достаточно, чтобы у людей появились когнитивные преимущества. Из этого можно заключить, что какие бы особенности ни отличали людей от менее интеллектуальных видов, вряд ли они очень сложные. Составные части универсального интеллекта должны присутствовать уже в шимпанзе.

На самом деле, относительно интеллектуальное поведение дельфинов позволяет предположить, что эти составные части скорее всего были уже у напоминающего мышь последнего общего предка людей и дельфинов. Можно заявить что и на искусственный интеллект равный мышиному уйдёт много веков, но это утверждение становится крайне сомнительным, если посмотреть на быстрый прогресс в области ИИ. В свете эволюционных наблюдений и последней пары десятилетий исследований ИИ, похоже, что интеллект – это что-то, что мы сможем понять и запрограммировать.

Альтернативный взгляд 3: Люди уже находятся на пределе физически возможного интеллекта или очень близки к нему. Так что, хоть мы и сможем создать равные человеку машины, создать суперинтеллект не получится.

Короткий ответ: Было бы удивительно, если бы человеческий разум оказался идеально приспособленным для рассуждений, — по тем же причинам, по которым удивительно было бы если бы самолёты не могли летать быстрее птиц. Простые физические рассуждения подтверждают эту интуицию: к примеру, с точки зрения физики представляется вполне возможным запуск симуляции человеческого мозга в тысячу раз быстрее его обычной скорости.

Кто-то может ожидать, что скорость здесь не важна, потому что мы упрёмся в ожидание новых данных от физических экспериментов. Мне это кажется маловероятным. Есть много интересных физических экспериментов, которые можно ускорить, и мне сложно поверить, что команда людей, запущенных на тысячекратной скорости не превзойдёт таких же обычных людей (в частности потому, что они смогут быстро разрабатывать новые инструменты и технологии для помощи себе).

К тому же я ожидаю, что возможно создать интеллект, который будет рассуждать не только быстрее, но и лучше, то есть, использующий вычислительные ресурсы эффективнее людей, даже при работе на той же скорости.

Почему это важно: Спроектированные людьми машины зачастую на голову превосходят биологических существ по параметрам, которые нас интересуют: автомобили не регенерируют и не размножаются, но уж точно перевозят людей дальше и быстрее, чем лошадь. Если мы сможем создать интеллектуальные системы, специально спроектированные для решения главных мировых проблем с помощью научных и технологических инноваций, то они смогут улучшать мир беспрецедентными темпами. Другими словами, ИИ важен.

Дальнейшее чтение: Чалмерс, «Сингулярность: Философский Анализ»

Утверждение 3: Если мы создадим высокоинтеллектуальные ИИ-системы, то их решения будут определять будущее

Благодаря интеллекту люди создают инструменты, планы и технологии, которые позволяют им изменять окружающую среду по своей воле (и заполнять её холодильниками, автомобилями и городами). Мы ожидаем, что ещё более умные системы будут ещё более способны изменять своё окружение, и, соответственно, что ИИ умнее человека будет управлять будущим больше, чем люди.

Альтернативный взгляд: ИИ никогда не сможет превзойти всё человечество в целом, каким бы умным он ни был. Наше окружение попросту слишком конкурентное. Ему придётся работать вместе с нами и интегрироваться в нашу экономику.

Короткий ответ: Я не сомневаюсь, что автономный ИИ, пытающийся выполнить простые задачи, поначалу будет мотивирован интегрироваться в нашу экономику: если создать ИИ для коллекционирования марок, то он, вероятно, начнёт накапливать деньги для их приобретения. Но что если у него появится сильное технологическое или стратегическое преимущество?

Утрированный пример: мы можем представить, как такой ИИ разрабатывает наномашины и использует их, чтобы они преобразовывали как можно больше материи в марки. Для него вовсе не обязательно будет иметь значение, откуда берётся эта материя – из «грязи», «денег» или «людей». Эгоистичные агенты имеют стимулы участвовать в экономике, только если их приобретения от торговли превышают то, что они получат, игнорируя экономику и просто забирая себе ресурсы самостоятельно.

Так что вопрос в том, возможно ли для ИИ получить решающее технологическое или стратегическое преимущество. Я считаю это наиболее сомнительным утверждением из тех, что я тут привожу. Однако, я всё равно ожидаю, что ответ определённо будет «да».

Исторически, конфликты между людьми часто заканчивались тем, что технологически превосходящая группа одерживала верх над своими соперниками. В настоящий момент есть некоторое число технологических и социальных инноваций, которые выглядят возможными, но ещё не разработаны. По сравнению с тем, чего могут достигнуть распределённые программные системы, люди медленно и неэффективно координируются. Поэтому можно предположить, что если мы создадим машину, которая двигает науку быстрее или эффективнее нас, то она быстро получит технологическое и/или стратегическое преимущество над человечеством для себя или для своих операторов. Это в особенности верно, если интеллектуальное превосходство позволяет ей социально манипулировать людьми, приобретать новое оборудование (легально или нет), производить лучшее оборудование, создавать копии себя, или улучшать свой собственный код. К добру или к худу, будущее, вероятно, будет в основном определяться принимающими решения сверхинтеллектуальными машинами.

Почему это важно: Потому что будущее важно. Если мы хотим, чтобы в будущем стало лучше (или хотя бы не хуже), то разумней уделить достаточно времени исследованию процессов, которые будут оказывать на будущее большое влияние.

Дальнейшее чтение: Армстронг, «Умнее Нас».

Утверждение 4: Высокоинтеллектуальный ИИ не будет полезен для человечества по умолчанию

Нам хотелось бы, чтобы ИИ умнее людей работали вместе с человечеством для создания лучшего будущего. Однако по умолчанию это не произойдёт. Чтобы создать ИИ, оказывающий благотворное влияние, нам нужно не просто создать более мощные и универсальные ИИ-системы, но и преодолеть некоторое количество технических препятствий.

Альтернативный взгляд: Люди, становясь умнее, так же становятся более миролюбивыми и терпимыми. Когда ИИ будет становится умнее, он, вероятно, сможет лучше понять наши ценности и лучше им соответствовать.

Короткий ответ: Достаточно умный ИИ сможет определить наши намерения и предпочтения. Однако это не подразумевает, что он будет его действия будут согласованы с нашими предпочтениями.

Самомодифицирующийся ИИ мог бы изучить свой код и решить, продолжить ли преследовать поставленные ему цели или модифицировать их. Но как программа будет решать, какие модификации проводить?

ИИ – это физическая система, и где-то внутри себя он конструирует предсказания о том, как вселенная будет выглядеть, если он совершит то или иное действие. Какие-то другие части системы сравнивают эти последствия и исполняют действия, ведущие к тем вариантам, которые текущая система высоко оценивает. Если агент изначально запрограммирован исполнять планы, ведущие к вселенной, в которой, как он предсказывает, что будет исцелён рак, то он будет модифицировать свои цели только если предскажет, что это приведёт к исцелению рака.

Независимо от их уровня интеллекта и независимо от ваших намерений, компьютеры делают в точности то, на что вы их запрограммировали. Если вы запрограммировали необычайно умную машину выполнять планы, которые, как она предсказывает, приведут к будущему, где рак исцелён, то может оказаться, что кратчайший найденный ею путь включает похищение людей для экспериментирования (а если вы попытаетесь её изменить, то она будет сопротивляться, потому что это замедлит процесс).

Нет никакой искры сочувствия, которая автоматически заставляет достаточно способные компьютеры уважать других разумных существ. Если вы хотите сочувствия, вам нужно его запрограммировать.

Почему это важно: Многие крупнейшие мировые проблемы было бы куда легче решить с помощью суперинтеллекта – но для получения этих преимуществ нужно большее, чем просто развитие способностей ИИ. Вы получите систему, которая делает то, что вам нужно, только если вы знаете, как запрограммировать её принимать ваши намерения во внимание и выполнять планы, которые им соответствуют.

Дальнейшее чтение: Бостром, «Воля сверхразума»

Довод о важности искусственного интеллекта опирается на эти четыре утверждения: универсальная способность к рассуждениям существует; если мы построим машины с такой способностью, они смогут быть намного умнее людей; если они будут намного умнее людей, у них будет огромное влияние; и это влияние по умолчанию не будет положительным.

В настоящее время на улучшение способностей ИИ тратятся миллиарды долларов и тысячи человеко-лет. Однако на безопасность ИИ направлено сравнительно мало усилий. Искусственный суперинтеллект может возникнуть в ближайшие десятилетия, и почти наверняка, если не случится какой-то катастрофы, возникнет в ближайший век или два. Суперинтеллектуальные системы окажут либо огромное положительное, либо огромное отрицательное влияние. И только от нас зависит, положительное это влияние будет или отрицательное.

Перевод: 
Максим Выменец, Alaric
Оцените качество перевода: 
Средняя оценка: 4.5 (4 votes)

Задача соответствия ракет и цели

Элиезер Юдковский

Нижеследующее — вымышленный диалог, основанный на Соответствие ИИ — Почему это сложно и с чего начать.

(Где-то в не-очень-то-близком из миров по соседству, где наука пошла совершенно другим путём…)

Альфонсо: Привет, Бет. Я заметил, что в последнее время многие предполагают, что «космосамолёты» будут использоваться для бомбёжки городов, или что в них вселятся злобные духи, населяющие небесные сферы, так что они пойдут против инженеров, их создавших.

Я довольно скептически отношусь к этим предположениям. На самом деле, я даже немного скептически и по поводу того, что в ближайшее столетие самолёты смогут достигнуть высоты стратосферных метеозондов. Но я понимаю, что твой институт хочет обратить внимание на потенциальные проблемы злобных или опасных космосамолётов, и вы думаете, что это важно уже сегодня.

Бет: Мы бы в Институте Математики Нацеленного Ракетостроения так не сказали… 1

Новостные статьи фокусируются на проблеме злобных небесных духов, мы же считаем, что настоящая проблема совершенно иная. Мы беспокоимся о сложной задаче, которую современное ракетостроение в основном игнорирует. Мы беспокоимся, что если направить ракету на Луну на небе и нажать кнопку запуска, то ракета может не прилететь к Луне.

Альфонсо: Я понимаю: очень важно спроектировать стабилизаторы для полёта при сильном ветре. Это важное направление исследований в области безопасности космосамолётов, кто-то должен это делать.

Но если бы вы работали над этим, я бы ожидал, что вы будете плотно сотрудничать с инженерами-самолётостроителями, чтобы протестировать свои проекты стабилизаторов и показать, что они действительно полезны.

Бет: Аэродинамика — важная часть проектирования любой безопасной ракеты, и мы очень рады, что ракетостроители работают над этим и всерьёз воспринимают безопасность. Однако, это не тот класс задач, на котором сосредоточены мы в MIRI.

Альфонсо: О чём в таком случае вы беспокоитесь? Вы боитесь, что космосамолёты могут быть разработаны злонамеренными людьми?

Бет: Нет, сейчас нас волнуют совсем другие сценарии провала. И в первую очередь то, что прямо сейчас вообще никто не может сказать, куда надо направить нос ракеты, чтобы она попала на Луну, или, на самом деле, вообще в любое заранее определённое место назначения. Мы считаем, что не важно — запустит ли ракету Google, правительство США, или Северная Корея. Это не влияет на вероятность успешной посадки на Луну, потому что сейчас никто не знает, как направить хоть какую-нибудь ракету хоть куда-нибудь.

Альфонсо: Не уверен, что понял.

Бет: Нас тревожит, что даже если прицелиться ракетой в Луну так, чтобы нос ракеты точно указывал на Луну на небе, ракета не полетит к Луне. Мы не знаем, как выглядит реалистичный путь от Земли к Луне, но мы подозреваем, что он будет не очень прямым и, возможно при этом направлять нос ракеты на Луну вовсе не нужно. Мы думаем, самое важное, что надо делать сейчас — это развивать наше понимание ракетных траекторий, пока у нас не будет лучшее, более глубокое понимание того, что мы начали называть «соответствием ракеты и цели»2. Есть много других задач в области безопасности, но задача соответствия ракеты и цели, вероятно, займёт больше всего времени, так что она самая срочная.

Альфонсо: Хммм, мне кажется, это слишком сильное заявление. У вас есть причина думать, что между нами и Луной есть невидимый барьер, в который может врезаться космосамолёт? Или вы говорите, что между нами и Луной может быть очень-очень ветрено, сильнее, чем тут на Земле? Может и стоит приготовиться к таким вариантам, но они не выглядят вероятными.

Бет: Мы вовсе не думаем, что невидимые барьеры особенно вероятны. И мы не думаем, что в небесных просторах будет очень ветрено — даже наоборот. Проблема в том, что мы пока не знаем, как построить хоть какую-нибудь траекторию, по которой реалистично добраться от Земли до Луны.

Альфонсо: Конечно, мы не можем построить конкретную траекторию: ветер и погода слишком непредсказуемы. Но твоё заявление всё ещё выглядит слишком сильным. Просто направь космосамолёт на Луну, взлети и пусть пилот поправляет курс по необходимости. С чего бы этому не работать? Ты можешь доказать, что космосамолёт, нацеленный на Луну, не доберётся до неё?

Бет: Мы не считаем, что можем что-то в таком роде доказать. Частично проблема в том, что реалистичные вычисления в этой области невероятно сложны, принимая во внимание трение об атмосферу и движение других небесных тел и всё такое. Мы пытались решать радикально упрощённые задачи, с предположениями в духе отсутствия атмосферы или ракет, двигающихся по идеально прямым линиям. Даже такие нереалистичные вычисления сильно свидетельствуют в пользу того, что в гораздо более сложном реальном мире просто нацеливание носа ракеты на Луну не приведёт к тому, что ракета в итоге прилетит на Луну. В смысле, то, что реальный мир сложнее, точно не делает добирание до Луны проще.

Альфонсо: Хорошо, давай я посмотрю на эту вашу работу над «пониманием»…

Гм. Судя по тому, что я читал про математику, которой вы пытаетесь заниматься, я бы сказал, что не понимаю, как она относится к Луне. Не должна ли помощь пилотам космосамолётов в точном нацеливании на Луну включать в себя наблюдение её через телескопы и изучение, как именно Луна выглядит, чтобы пилоты могли найти наилучший ландшафт для посадки?

Бет: Мы считаем, что нашего уровня понимания не хватает, чтобы заниматься детальной картой Луны прямо сейчас. Нам пока ещё рано выбирать кратер, на который стоит нацеливаться. Сейчас мы не можем нацелиться вообще ни на что. Это больше похоже на «понять, как математически рассуждать об искривлённых ракетных траекториях вместо ракет, двигающихся по прямым линиям». Даже пока что не о реалистично искривлённых траекториях, мы просто пытаемся хоть как-то пройти дальше прямых…

Альфонсо: Но самолёты на Земле движутся по кривым всё время, ведь искривлена сама Земля. Естественно ожидать, что будущие космосамолёты тоже будут способны двигаться по кривым. Если вы беспокоитесь, что они будут двигаться только по прямым и промахнутся мимо Луны, и вы хотите посоветовать ракетным инженерам строить ракеты, двигающиеся по кривым, то, кажется, время можно потратить и с большей пользой.

Бет: Ты пытаешься провести слишком прямую связь между математикой, над которой мы работаем прямо сейчас, и реальными возможными будущими проектами ракет. Дело вовсе не в том, что текущие идеи ракет почти правильные, и нам просто надо решить ещё одну-две задачи, чтобы они заработали. Концептуальный разрыв, отделяющий человечество от решения задачи нацеливания ракет гораздо-гораздо шире.

Прямо сейчас по поводу ракетных траекторий у всех полное замешательство. Мы пытаемся понять хотя бы чуть больше, чем ничего. Именно это сейчас первоочередная задача. Не надо бежать к ракетным инженерам и советовать им строить ракеты согласно тому, что написано в наших математических статьях. Пока мы даже не разобрались в совершенно базовых вопросах вроде того, почему Земля не падает на Солнце.

Альфонсо: Я не думаю, что Земля может столкнуться с Солнцем в обозримом будущем. Солнце стабильно вращается вокруг Земли уже довольно долго.

Бет: Я не говорю, что наша цель связана с риском падения Земли на Солнце. Я говорю, что раз современные знания человечество не позволяют отвечать на вопросы вроде «Почему Земля не падает на Солнце?», то мы не очень много знаем про небесную механику и не в состоянии направить ракету через небесные просторы так, чтобы она совершила мягкую посадку на Луну.

Например, чтобы лучше разобраться в небесной механике, мы сейчас работаем над задачей «повторяющихся позиций». Она о том, как выстрелить ядром из пушки так, чтобы ядро облетало Землю снова и снова, повторяя свои изначальные координаты, как повторяется плитка на полу…

Альфонсо: Я полистал вашу работу по этой теме. Должен сказать, мне не понятно, как стрельба из пушек связана с полётом на Луну. Откровенно говоря, это звучит подозрительно похоже на старые-добрые космические полёты, которые, как всем известно, не работают. Может, Жюль Верн думал, что можно путешествовать вокруг Земли, выстрелив капсулой из пушки, но современные исследования высоко летающих самолётов полностью отбросили такой вариант. То, что вы упоминаете стрельбу из пушек, наталкивает меня на мысль, что вы не поспеваете за инновациями в самолётостроении за последний век, и поэтому ваши проекты космосамолётов будут совершенно нереалистичными.

Бет: Мы знаем, что ракетами на самом деле не будут выстреливать из пушек. Правда-правда. Мы прекрасно осведомлены о причинах того, почему нельзя достичь скорости убегания, выстрелив чем-то из современной пушки. Я уже написала несколько цепочек статей, в которых я описала, почему космических полётов на основе стрельбе из пушек не получится.

Альфонсо: Но твоя текущая работа вся про то, как выстрелить чем-то из пушки так, чтобы оно облетало Землю снова и снова. Как это связано с любыми реалистичными советами, которые можно было бы дать пилоту космосамолёта о том, как долететь до Луны?

Бет: Опять же, ты пытаешься слишком напрямую связать математику, которой мы занимаемся сейчас и непосредственные советы будущим инженерам.

Мы думаем, что если мы сможем найти угол и изначальную скорость, такие, что выстрел из идеальной пушки на идеальной сферической Земле без атмосферы идеальным ядром с этой скоростью и углом приведёт к тому, что ядро займёт то, что мы называем «стабильной орбитой», и не упадёт, то… мы, может быть, поймём что-то по-настоящему фундаментальное и важное о небесной механике.

Или нет! Сложно знать заранее, какие вопросы важны, и какие исследования оправдаются. Всё, что можно сделать, это определить следующую выглядящую поддающейся трактовке задачу, которая вызывает у тебя замешательство, и попробовать найти решение и надеяться, что замешательство уменьшится.

Альфонсо: Ты говоришь о том, что ядро упадёт, как о проблеме, и о том, как ты хочешь избежать этого и заставить ядро летать вечно, правильно? Но настоящие космосамолёты изначально не будут направлены обратно на Землю, а большинство обычных самолётов вполне успешно не падают. Так что мне кажется, что этот сценарий «выстреливания из пушки и падения», которого вы пытаетесь избежать в этой вашей «задаче повторяющихся позиций» — просто не тот вид провала, о котором должны будут беспокоиться реальные проектировщики космосамолётов.

Бет: Мы не беспокоимся о реальных ракетах, выпускаемых из пушек и падающих. Мы не поэтому работаем над задачей повторяющихся позиций. В некотором роде ты чересчур оптимистичен по поводу того, какая часть теории соответствия ракет и цели уже построена! Мы не настолько близки к пониманию того, как нацеливать ракеты, чтобы проекты, о которых говорят сейчас, могли сработать, если бы мы только решили определённый набор оставшихся сложностей вроде «как не позволить ракете упасть». Тебе нужно перейти на мета-уровень, чтобы понять, прогресса какого вида мы добиваемся.

Мы работаем над задачей повторяющихся позиций потому, что мы думаем, что способность выстрелить ядром с определённой мгновенной скоростью так, чтобы оно заняло стабильную орбиту… это такая задача, которую кто-то, кто реально может запустить ракету по конкретной кривой, которая закончится мягкой посадкой на Луну, мог бы решить с лёгкостью. Так что нас тревожит то, что мы её не можем решить. Если мы разберёмся, как решить эту гораздо более простую чётко поставленную задачу повторяющихся позиций с воображаемыми ядрами на идеально-сферической Земле без атмосферы, которую гораздо проще анализировать, чем полёт на Луну, то, может быть, сделаем ещё один шаг к тому, чтобы когда-нибудь стать такими людьми, которые могут спланировать полёт на Луну.

Альфонсо: Если вы не считаете космические пушки в духе Жюля Верна перспективными, то я не понимаю, почему вы продолжаете говорить именно про пушки.

Бет: Потому что уже разработано много сложных математических методов для нацеливания пушек. Люди целились из пушек и проводили траектории ядер с шестнадцатого века. Преимущество этой существующей математики позволяет нам точно сказать, где упадёт идеальное ядро, выпущенное из идеальной пушки в каком-то направлении. Если мы попробуем говорить о ракетах с реалистично изменяющимся ускорением, то мы не сможем даже доказать, что ракета не будет летать вокруг Земли по идеальному квадрату, потому что реалистичные изменения ускорения и реалистичное трение о воздух делают любые точные высказывания невозможными. Нашего текущего понимания не хватает.

Альфонсо: Хорошо, другой вопрос в том же духе. Зачем MIRI финансирует работу по сложению кучи крохотных векторов? Я вообще не вижу, как это связано с ракетами, это выглядит как какая-то странная сторонняя задача из абстрактной математики.

Бет: Это связано с тем… в наших исследованиях мы несколько раз натыкались на задачу перехода от функции изменяющегося во времени ускорения к функции изменяющегося со временем положения. Эта задача становилась камнем преткновения несколько раз, так что мы начали попытки явно проанализировать её отдельно. Поскольку она про чистую математику, не двигающихся дискретно точек, мы назвали её задачей «логической недискретности». Эту задачу можно, например, изучать, пытаясь сложить кучу маленьких меняющихся векторов в один большой вектор. Потом мы рассуждаем о том, как сумма меняется всё медленнее и медленнее, приближаясь к пределу, если вектора становятся всё меньше и меньше, но складываем мы их всё больше и больше… По крайней мере, это один из подходов.

Альфонсо: Мне просто трудно представить, как люди в будущих ракетных космосамолётах смотрят в иллюминаторы и «О нет, у нас недостаточно маленьких векторов, чтобы скорректировать курс! Если бы только был способ сложить побольше ещё меньших векторов!». Я ожидаю, что будущие вычислительные машины будут делать это достаточно хорошо.

Бет: Ты опять слишком напрямую связываешь работу, которой мы заняты сейчас, и применения для будущих проектов ракет. Мы не думаем, будто спроектированная ракета почти что будет работать, но пилот не сможет сложить много крохотных векторов достаточно быстро, так что нам нужен алгоритм побыстрее, и тогда ракета попадёт на Луну. Это фундаментальная математическая работа, которая, как мы считаем, может помочь с основными концепциями, необходимыми для понимания небесных траекторий. Когда мы пытаемся провести траекторию вплоть до мягкой посадки на движущуюся Луну, мы чувствуем себя в замешательстве и тупике. Мы думаем, часть замешательства происходит из нашей неспособности перейти от функций ускорения к функциям положения, так что так мы и пытаемся его разрешить.

Альфонсо: Это подозрительно похоже на задачу откуда-то из философии математики. Не думаю, что можно продвинуться в проектировании космосамолётов, занимаясь философией. Область философии — застойная трясина. Некоторые философы всё ещё верят, что полёт на Луну невозможен. Они говорят, что небесный план фундаментально отделён от земного и потому недосягаем, что откровенно глупо. Проектирование космосамолётов — инженерная проблема, и продвигаются в ней инженеры.

Бет: Я согласна, что проектированием ракет занимаются инженеры, а не философы. Также я разделяю часть твоего огорчения по поводу философии в целом. Именно поэтому мы занимаемся хорошо определёнными математическими вопросами, которые скорее всего имеют настоящие ответы. Например, вопросом о том, как выстрелить пушечным ядром на идеально сферической планете без атмосферы так, чтобы оно вышло на стабильную орбиту.

Для этого часто нужен новый математический аппарат. К примеру, для задачи логической недискретности мы разработали методы для перехода от изменяющихся во времени ускорений к изменяющихся во времени положениям. Ты, если хочешь, можешь называть разработку нового математического аппарата «философией» — но тогда помни, что это совсем другой вид философии, чем «спекулятивные предположения о небесных и земных планах».

Альфонсо: Итак, с точки зрения общественного блага, что хорошего произойдёт, если вы решите эту задачу про логическую недискретность?

Бет: В общих чертах: мы больше не будем настолько в замешательстве, наши исследования не будут в тупике, а человечество может когда-нибудь и доберётся до Луны. Если попытаться сказать это менее размыто — хотя без знания конкретного решения это тяжело — мы сможем научиться говорить о всё более реалистичных ракетных траекториях, потому что у нас будет математика, которая не ломается сразу же, как только мы перестаём предполагать, что ракеты двигаются по прямым. Наша математика сможет рассуждать о точных кривых, вместо последовательностей аппроксимирующих отрезков.

Альфонсо: Точная кривая, которой следует ракета? Это приводит к главной проблеме, которую я вижу в вашем проекте. Я просто не верю, что будущие ракеты можно будет анализировать с абсолютной идеальной точностью и посылать её на Луну по заранее точно проведённой траектории без нужды поправлять её по дороге. Это выглядит для меня так, будто математики, не имеющие понятия о том, как работает реальный мир, хотят, чтобы всё было идеально вычисляемым. Посмотри, как Венера двигается по небу; она обычно движется в одном направлении, но иногда становится ретроградной и двигается в другую сторону. Иногда по дороге нам придётся просто рулить.

Бет: Когда я говорила про точные кривые, я подразумевала не совсем это… Смотри, я соглашусь, что даже если мы решим логическую недискретность, бесполезно будет пытаться заранее предсказать точные траектории со всеми ветрами, которые встретит ракета на своём пути. Отмечу, впрочем, что когда ракета поднимется достаточно высоко, всё может стать спокойнее и предсказуемее…

Альфонсо: Почему?

Бет: Давай пока не будем этого касаться, раз мы и так согласны, что положение ракеты сложно предсказать точно в атмосферной части её траектории, из-за ветров и подобного. И да, если нельзя точно предсказать раннюю траекторию, то нельзя точно предсказать и позднюю траекторию. Так что мы вовсе не предлагаем спроектировать ракету так идеально, чтобы можно было просто направить её с абсолютно точным углом и обойтись без пилота. Цель ракетной математики не в том, чтобы заранее предсказать точное положение ракеты в каждую микросекунду.

Альфонсо: Тогда зачем вы так одержимы чистой математикой, которая слишком проста, чтобы описать большой сложный реальный мир, где иногда идёт дождь?

Бет: Это правда, что настоящая ракета — не простое уравнение на доске. Это правда, что многие аспекты формы и внутреннего устройства настоящей ракеты не будут иметь компактного математического описания. Мы в MIRI пытаемся создать не математику для всех ракетостроителей на все времена, а математику, которую мы будем использовать прямо сейчас (как мы надеемся).

Чтобы с каждым шагом понимать нашу область всё лучше и лучше, нам нужно говорить об идеях, последствия которых можно определить достаточно точно. Это нужно, чтобы у людей был общий контекст для анализа сценариев. Нам нужно достаточно точности, чтобы кто-нибудь мог сказать: «В сценарии X, я думаю, Y приведёт к Z», а кто-то мог ответить: «Нет, в сценарии X, Y на самом деле приведёт к W», а первый мог ответить: «Чёрт, ты прав. Что ж, подумаем, как изменить Y, чтобы он всё же приводил к Z?».

Если же попытаться сделать что-то реалистично сложное на текущей стадии исследований, получится просто пустая болтовня. Когда у кого-то есть огромная схема с шестерёнками и рулями, которая якобы является проектом ракеты, а мы пытаемся объяснить, почему ракета, направленная на Луну, не обязательно прилетит на Луну, нам просто отвечают: «О, моя ракета обязательно прилетит». Идеи подобных изобретателей так размыты, и гибки, и недоопределены, что никто не может доказать им, что они неправы. Становится невозможно добавить хоть что-то к общему знанию.

Наша цель — постепенно создавать коллекции инструментов и идей, с помощью которых можно будет обсуждать траектории формально. Некоторые ключевые инструменты формализации и анализа интуитивно-правдоподобных траекторий ещё не выражены в чистой математике. Пока мы можем с этим жить. Мы всё ещё пытаемся найти способы математически чётко отобразить столько ключевых идей, сколько сможем. Не потому, что математика такая изящная и престижная, а для того, чтобы продвинуть споры о ракетах дальше, чем «А я говорю, да!» и «А я говорю, нет!».

Альфонсо: Мне всё ещё кажется, что вы пытаетесь спрятаться в тепле и комфорте строгих математических обоснований там, где они просто невозможны. Мы не можем совершенно строго математически доказать, что наши космосамолёты точно доберутся до Луны и ничего не пойдёт не так. Так что не стоит делать вид, что математика позволит нам получить абсолютную гарантию касательно космосамолётов.

Бет: Поверь мне, у меня точно не будет полной уверенности в результате вне зависимости от того, какую математику разработают в MIRI. Да, конечно, никакое физическое высказывание нельзя доказать математически, и нельзя назначить вероятность 1 любому эмпирическому утверждению.

Альфонсо: Но ты говоришь о доказательстве теорем — типа того, что ядро будет бесконечно летать кругами вокруг Земли.

Бет: Доказательство теоремы о траектории ракеты не даст нам достаточно комфортную уверенность в том, где она в итоге окажется. Но если доказать теорему, которая заявляет, что запущенная в идеальном вакууме ракета прилетит на Луну, то может быть, что если присоединить к ней какие-нибудь маневровые двигатели, то она долетит до Луны и в реальности. С вероятностью не в 100%, но выше нуля.

Суть нашей работы не в том, чтобы довести текущие идеи о нацеливании ракеты от 99% до 100% вероятности успеха. Она в том, чтобы превзойти текущий шанс успеха в приблизительно 0%.

Альфонсо: Ноль процентов?!

Бет: С точностью до правила Кромвеля, да, ноль процентов. Если направить нос ракеты на Луну и запустить её, она не прилетит на Луну.

Альфонсо: Если прямое нацеливание на Луну не работает, то вряд ли будущие инженеры космосамолётов будут на самом деле настолько глупы, что это не поймут. Они отследят текущее движение Луны по небу и прицелятся в ту часть неба, где Луна будет в день, когда космосамолёт пролетит расстояние до Луны. Меня тревожит, что вы так долго обсуждаете эту проблему и не рассмотрели такую очевидную идею.

Бет: Мы давно уже её рассмотрели и вполне уверены, что это не приведёт нас на Луну.

Альфонсо: Что если мы добавим стабилизаторы, чтобы ракета двигалась по более искривлённой траектории? Можешь доказать, что никакая версия ракеты из этого класса не долетит до Луны, сколько бы мы не старались?

Бет: Можешь набросать траекторию, по которой, с твоей точки зрения, полетит ракета?

Альфонсо: Она полетит от Земли к Луне.

Бет: А можно поподробнее?

Альфонсо: Нет, потому что в реальном мире всегда есть меняющаяся скорость ветра, а у нас нет бесконечного топлива, а космосамолёты не двигаются по идеально прямым линиям.

Бет: Можешь набросать траекторию, которой, как ты думаешь, будет следовать упрощённая версия твоей ракеты, чтобы мы могли понять, каких допущений требует твоя идея?

Альфонсо: Я просто не верю в общую методологию, которую ты предлагаешь для проектирования космосамолётов. Мы устанавливаем стабилизаторы, рулим, пока летим и держим курс на Луну. Если мы сбиваемся с курса, мы его поправляем.

Бет: Вообще-то мы несколько беспокоимся, что обычные стабилизаторы могут перестать работать, когда ракета поднялась слишком высоко. И получится, что оказавшись в небесных просторах, курс поправить уже нельзя. То есть, если курс уже хороший, то ты сможешь его поправить, но если всё пошло совсем не так, то нельзя просто развернуться как на самолёте.

Альфонсо: Почему нельзя?

Бет: Этот вопрос тоже можно обсудить. Однако для того, чтобы дискуссия продвигалась вперёд, всё равно нужно разбирать последовательность шагов, которые ракета пройдёт по пути к Луне. Даже если это упрощённая модель ракеты, которой можно рулить. Полёты ракет в небесах — это необычайно сложная область — даже если сравнивать с строительством ракет на Земле, что само по себе очень тяжело, потому что обычно они просто взрываются. Не то, что бы всё должно было быть изящным и математичным. Однако это очень сложная задача. И предложения вроде «давайте следовать за Луной в небе», если они не основываются на достаточно надёжных идеях, эквивалентны запуску ракеты в пустоту случайным образом.

Если кажется, что ты точно не уверен, сработает ли твоя идея, но она может сработать, и при этом твоя идея состоит из множества правдоподобно звучащих деталей, и, кажется, ни у кого не получается по-настоящему убедительно объяснить тебе, почему эта идея не сработает, то, на самом деле, шансы, что твоя идея приведёт ракету на Луну, примерно равны нулю.

Если кажется, что идея достаточно надёжно обоснована и полностью понятно, если кажется, что она определённо должна успешно довести ракету до Луны, когда всё пойдёт хорошо, тогда, может быть, в лучшем случае, мы можем быть субъективно уверены в успехе на 85%, или около того.

Альфонсо: То есть неуверенность автоматически означает провал? Если честно, звучит параноидально.

Бет: Идея, которую я стараюсь донести, это что-то вроде: «Если ты можешь строго рассуждать о том, почему ракета в принципе должна работать как надо, то это может на самом деле сработать, но если у тебя что-то меньшее, то это определённо не сработает в реальном мире».

Я не прошу тебя дать мне абсолютное математическое доказательство эмпирического успеха. Скорее набросок того, как упрощённая версия твоей ракеты может двигаться, достаточно определённый, чтобы ты не мог потом просто сказать «О, я имел ввиду вовсе не это» каждый раз, когда кто-то пытается понять, что она на самом деле делает, или указать на возможные причины провала.

Это не надуманное требование, отсекающее вообще любые идеи. Это нижняя планка, которую необходимо преодолеть, чтобы привнести что-то новое в эту область. И если проект ракеты не соответствует даже этой концептуальной планке, то шансы такой ракеты на мягкую посадку на Луну примерно равны нулю.

  • 1. В оригинале «Mathematics of Intentional Rocketry Institute» — сокращается до того же MIRI, что и Machine Intelligence Research Institute — Прим. перев.
  • 2. В оригинале «the rocket alignment problem» с тем же «alignment», что и в «AI-alignment». — Прим. перев.
Перевод: 
Максим Выменец
Оцените качество перевода: 
Средняя оценка: 4 (5 votes)

Руководство по исследованиям в области соответствия ИИ

Команда MIRI

Это руководство написано командой MIRI в первую очередь для групп MIRIx, однако советы отсюда могут оказаться полезны и другим людям, работающим над проблемой соответствия ИИ1 нашим целям.

Введение I. Теория принятия решений

Привет! Возможно, вы обратили внимание, что вы читаете некий текст.

Из этого факта следуют некоторые выводы. Например, зачем вы читаете этот текст? Закончите ли вы чтение? Какие решения вы примете? Что вы сделаете дальше?

Независимо от того, какое решение вы примете, учтите, что, скорее всего, десятки или даже сотни людей, достаточно похожие на вас и находящиеся в схожих условиях, скорее всего примут примерно такие же решения.

Поэтому мы рекомендуем при размышлении над ближайшими решениями задаться вопросом: «Если все агенты, похожие на меня, будут действовать одинаково, какая их политика приведёт к максимальному благу и как эта политика рекомендует поступить в моём случае?» Речь идёт скорее не о попытке решить за всех агентов, достаточно похожих на вас (что может заставить вас принять неверное решение из чувства вины или из ощущения, что на вас давят), а о чём-то вроде «если бы я руководил всеми агентами из моего референтного класса, как бы я относился к кому-то в этом классе, если бы он обладал именно моими особенностями?»

Если эти рассуждения помогут вам продолжить чтение — прекрасно. Если они приведут к тому, что вы создадите группу MIRIx — ещё лучше. Тем временем, мы продолжим, считая, что этот документ читают лишь люди, которые оправданно ожидают, что он окажется им чем-то полезен.

Введение II. Площадь поверхности

Представьте, что вам нужно передвинуть железный куб со стороной в один метр. Поскольку такой куб весит примерно 8 тонн, а среднестатистический человек может поднять примерно 50 килограмм, наивные подсчёты сообщают, что нам понадобится примерно 160 друзей, которые захотят нам помочь.

Однако, конечно же, вокруг метрового куба поместятся лишь примерно 10 человек максимум. Совершенно не важно, есть ли у вас теоретически силы, чтобы его сдвинуть, если вы не можете эффективно приложить эти силы. У задачи есть ограничение: площадь поверхности.

Группы MIRIx — один из лучших способов увеличить «площадь поверхности» для людей, размышляющих и работающих над технической проблемой соответствия ИИ. Указ «десять человек, которые оказались ближайшими к металлическому кубу — единственные, кому разрешается думать над этой задачей» был бы плохой идеей. И точно также мы не хотим, чтобы MIRI оказался узким местом или авторитетом в вопросах, как следует рассуждать и что нужно делать в вопросах внедрённой агентности2 и смежных областях.

Мы надеемся, что вы и другие люди, похожие на вас, на самом деле решат эту задачу, а не будут просто следовать указаниям или читать написанное кем-то другим. Этот текст создан, чтобы поддержать тех, кому интересно самому совершить прорыв.

Вы и ваши исследования

Нам часто задают вопрос: «Даже летняя стажировка, кажется, слишком коротка, чтобы всерьёз продвинуться в решении настоящей задачи. Как кто-нибудь может всерьёз что-то исследовать за одну встречу?»

На эту тему можно выразиться в стиле Зенона: вы не продвинетесь в своих исследованиях и за миллион лет, если не можете продвинуться в них за пять минут. Очень легко попасть в ловушку (явного или неявного) представления исследований как чего-то вроде: «сначала изучаем всё, что нужно изучить, а затем пытаемся раздвинуть границы и внести свой вклад».

Проблема такого представления (с нашей точки зрения) в том, что она подталкивает людей в сторону поглощения информации как некоего необходимого условия для понимания, а не как необходимого инструмента. (Помните, что именно вы оптимизируете во время своей работы!)

Всегда будет существовать ещё какой-нибудь материал, который стоит изучить. Сложно предсказать заранее, сколько именно вам нужно знать, чтобы получить право на собственные мысли и взгляд. И легко пасть жертвой синдрома Даннинга-Крюгера или синдрома самозванца, а также начать излишне полагаться на существующие авторитеты.

Вместо этого мы рекомендуем выбросить вопрос авторитетов из головы. Просто следуйте за рассуждениями, которые кажутся живыми и интересными. Не думайте об исследованиях как о процессе «сначала изучаем, потом вносим свой вклад». Сосредоточьтесь на собственном понимании задачи, и пусть ваши вопросы сами определяют, какие статьи вам нужно прочитать и какие доказательства изучить.

Такой подход к исследованиям решает вопрос: «Что можно осмысленного сделать за день?» Кажется очень сложно достичь существенного прогресса, если вы меряте себя какой-то объективной внешней меркой. Но гораздо проще, если вас ведёт вперёд ваш собственный вкус.

Никакая процедура не подойдёт абсолютно всем. Однако далее приведены шаги, которые вы можете попробовать самостоятельно или в группе (например, MIRIx), чтобы попрактиковаться в описанном выше исследованиях, питаемых любопытством.

  1. Выпишите список вопросов.
    • Если вы работаете в группе, прикрепите этот список туда, где все смогут его видеть, например, на доску.
    • Сосредоточьтесь на том, о чём вы не знаете, как это делать, или по поводу чего испытываете замешательство.
    • Если в голову не приходят никакие вопросы, скажите себе (или группе): «Прекрасно, я должен понять, как решить всю эту задачу целиком» и попробуйте описывать подробности решения, пока не застопоритесь.
    • Совершенно нормально включать в список не только вопросы, но и идеи, которые вы хотите развить, или мысли, критику которых вы хотите получить от группы.
  2. Выберите один из вопросов, чтобы сконцентрироваться на нём. Выбирайте то, что кажется наиболее интересным.
    • Если в вашей группе больше трёх человек, подумайте о том, чтобы разделиться. Каждая подгруппа может обсуждать как свой собственный вопрос, так и независимо обсуждать один общий. Определитесь, через какое время вы опять соберётесь вместе и обсудите, к чему вы пришли.
    • Рекомендуем сохранять полный перечень вопросов где-то на виду, чтобы он напоминал вам о других интересных темах, на которые можно переключиться, если мысли по поводу первого выбранного вопроса иссякнут.
  3. Сформулируйте собственное любопытство. Чего хочется достичь? Чего, по-вашему, можно достичь?
    • При работе в группе обычно человеку, который предлагает тему, стоит рассказать что-нибудь о ней, чтобы все одинаково понимали, о чём речь.
    • При работе самостоятельно рекомендуем с самого начала записывать всё, что, по-вашему, вы знаете и что, по-вашему, вы не знаете. Записывайте всё, что имеет хоть какое-то отношение к делу. На этом этапе не беспокойтесь, истинны ли ваши утверждения и осмысленны ли ваши вопросы. Затем пересмотрите написанное и придайте ему смысл. Переформулируйте ваши утверждения до тех пор, пока они не превратятся во что-то определённо либо истинное, либо ложное.
  4. Продолжайте формулировать и уточнять.
    • Продолжайте формулировать вспомогательные вопросы и делать утверждения (возможно, истинные, возможно, нет), двигаясь от расплывчатых к чётким и формальным.
    • Обращайте внимание, когда ваше любопытство растёт, а когда падает. Избегайте стремления завершить работу из чувства долга. Ищите самые простейшие случаи, по поводу которых вы до сих пор испытываете замешательство, и пробуйте работать с ними.
    • Позвольте себе отвлекаться. Позвольте себе играть. Пока все участники дискуссии сохраняют любопытство и вовлечённость, это способствует лучшему пониманию. Не бойтесь залипнуть в какой-нибудь «неважный» математический вопрос, не исключено, что они окажутся более важными, чем кажется на первый взгляд. Вы развиваете свои способности, пусть даже это не помогает напрямую решать вашу задачу.
    • Если вы получили конкретные математические результаты, в которых есть что-то интересное, или даже конкретный математический вопрос, запишите это. Подробные отчёты в письменном виде помогают не только обмениваться идеями с другими людьми. Они ещё способствуют тому, что вы сами начинаете лучше понимать изучаемый вопрос.

Прогресс в MIRI достигается примерно таким же образом. Наша работа очень сильно отличается от «просто читаем множество статей» и очень сильно отличается от «попытаться сформулировать от начала до конца, что именно нужно сделать в этой области».

Естественная ошибка: считать свою работу попыткой внести вклад в мировое коллективное знание и из-за этого перестать ставить на первое место собственные знания и понимание. На первый взгляд, «просто читать статьи» выглядит, как будто мы ставим собственные знания на первое место, но такой подход часто является следствием неявного убеждения, что какие-то другие люди точно знают, что именно нам нужно знать. Подход же «оптимизировать собственное понимание» порождает быструю обратную связь.

В том, чтобы читать статьи нет ничего самого по себе плохого — даже если вы просто читаете произвольные статьи по соответствующей тематике, чтобы получить общее представление о состоянии дел. Однако вам стоит всегда пытаться представлять, что именно вы знаете или не знаете, как делать, и что именно вам нужно узнать, чтобы решить задачу. Это сложно. Не исключено, что вы уверены, что первые пять идей, которые вы запишете, окажутся неверными. Тем не менее, всё же запишите их и попробуйте заставить их работать. Так вы сможете увидеть, что получится, и понять, что идёт не так.

Мы не хотим, чтобы сотни талантливых людей задавали одни и те же вопросы и принимали один и тот же набор допущений. Нам нужно много исследователей, а не пользователей. С нашей точки зрения, лучший способ стать исследователем — это с самого начала тренироваться независимо мыслить, а не прокачивать навык «сижу и впитываю информацию ради информации».

Поэтому не спрашивайте: «Какие есть открытые вопросы?» Спрашивайте: «Какие вопросы интересуют меня?»

Как начать

Предположим, вы попробовали что-то из написанного выше, вам понравилось и вы хотите перейти к созданию вашей собственной группы MIRIx.

Мы рекомендуем в первую очередь найти ОДНОГО или ДВУХ людей (но не трёх и больше), и попробовать заняться исследованиями пару раз вместе с ними. Ниже будет раздел про социальную динамику, в котором описано, как именно это может выглядеть, но смысл в том, что, вероятно, лучше попробовать отладить атмосферу и рабочий процесс при малом количестве участников. Если вы начнёте с большого количества людей, договариваться о работе группы, скорее всего, будет гораздо сложнее.

Ещё в случае большого количества людей сложно договориться о расписании. Найти время и место, которые устраивали бы всех, становится невозможно, и процесс согласования каждой новой встречи может демотивировать. Составляйте расписание так, чтобы оно подходило основному ядру группы. Какой день недели подходит вам? Как часто вы хотите встречаться? Сколько времени будет длиться встреча? Мы рекомендуем устраивать встречи раз в месяц, раз в неделю или раз в две недели. Длина встречи может варьироваться от часа до целого дня, в зависимости от того, что подходит лично вам.

Когда вы найдёте одного или двух партнёров, с которыми вам действительно комфортно работается, следующий шаг: запланировать и организовать первую большую встречу. «Большая» — означает примерно «от трёх до шести человек». Определённо не «двадцать-тридцать слушателей».

Попытайтесь найти тихое, звукоизолированное место, где можно удобно расположиться, есть на чём писать (в том числе, есть большие маркерные доски на стенах). Часто подобные места есть в университетах и публичных библиотеках, но подойдёт и чья-нибудь гостиная, если вы сможете свести к минимуму количество посторонних вмешательств. Не забудьте запастись чистой бумагой, ручками, планшетами, а также выберите кого-нибудь, кто будет отвечать за еду и питьё.

(Примечание по поводу еды и питья. Люди почти всегда недооценивают важность качества и количества еды и сваливаются к чему-нибудь вроде: «Не знаю, может просто купим чипсы баксов на десять или что-то в этом духе?» Лучше спросите себя: сколько я потратил бы на то, чтобы способность думать для всей группы, общее настроение и удовлетворённость от встречи повысилась бы на 15%? Именно от такой суммы вам стоит отталкиваться (/ попросить у MIRI) при расчёте стоимости еды, особенно на первую встречу. Не покупайте только фаст-фуд. Возможно, на какое-то время он вам даст больше энергии, но вам будет сложнее думать потом. Здоровая еда довольно важна — особенно для длинных встреч. Большая встреча должна включать в себя достаточно серьёзный приём пищи, возможно в ближайшем ресторане. Это также послужит неплохим перерывом.)

На первой большой встрече, возможно, вы захотите выбрать руководителя группы. Это важная часть культуры общего знания — в большинстве случаев руководитель ничем не отличается от остальных, однако крайне полезно, чтобы в наличии был человек, у которого есть моральное право устанавливать повестку, выбирать между различными хорошими вариантами и не давать группе отвлекаться. Возможно, вы также захотите выбрать секретаря/ответственного за записи, или, быть может, координатора, отвечающего за выбор места и еду, или создать какие-нибудь ещё должности (впрочем, этим можно заняться и на следующих встречах).

Затем вы, вероятно, захотите смоделировать процесс, который уже работает для вас. Возможно, это означает поделиться списком уже существующих вопросов и посмотреть, какие из них привлекут интерес участников. Возможно, это означает сначала обсудить направление ваших исследованиях в общих чертах, а уж затем перейти к отдельным темам. В любом случае вы захотите перейти к серьёзным размышлениям, записям, доказательствам и обсуждениям как можно быстрее. Если на встрече присутствует больше четырёх человек, лучше разбиться на подгруппы. Если вы так и поступите, запланируйте, в какое время вы соберётесь обратно для обсуждения.

Постарайтесь не забывать о перерывах. Когда работа вовсю кипит, вспоминать о них сложно, поэтому стоит их запланировать заранее. Короткий перерыв каждый час, во время которого люди встают и выходят прогуляться, очень помогает.

Имеет смысл сохранять общедоступный список (на маркерной доске или в общем гугл-документе) накопившихся вопросов, необходимых понятий и многообещающих идей. Из такого списка легко почерпнуть новую тему, если разговор зашёл в тупик.

Возможная структура встречи, включающая в себя советы выше и исследовательскую процедуру из предыдущего раздела:

  1. В начале каждой встречи все перечисляют свои вопросы/темы/замешательства, и всё это записывается в общедоступный список.
  2. Собравшиеся определяют наиболее интересные им вопросы и делятся на подгруппы.
  3. Подгруппы обсуждают свои вопросы 45 минут.
  4. Все собираются вместе и несколько минут обсуждают, что происходило в подгруппах.
  5. Перерыв на 5-10 минут, в зависимости от того, как все себя чувствуют.
  6. На доску добавляются новые вопросы/идеи, и процесс повторяется нужное число раз. (Если вы планируете несколько циклов, также запланируйте длинный перерыв на то, чтобы поесть.)

В конце встречи запланируйте следующую. Возможно, вы уже сошлись на каком-то расписании, которое работает для ядра группы, но всё же его стоит подстраивать на случай праздников, отпусков и других обстоятельств. Важно, чтобы все согласились с временем следующей встречи, даже если у вас уже твёрдо устоявшееся расписание. Постарайтесь с самого начала принять, что вы не пытаетесь добиться постоянного всеобщего присутствия: будет лучше, если люди поймут, что иногда пропускать встречи — это нормально (при условии, что на каждую встречу приходит примерно 70-90% участников). Если один или два человека не могут прийти две встречи подряд, постарайтесь узнать у них подробности, чтобы, возможно, подстроиться под их расписание при планировании третьей.

Модели социальной динамики

В этой секции собраны несколько довольно «сырых» моделей о том, как получается хорошая исследовательская группа или вообще хорошее совместное предприятие. Здесь стоит обращать внимание скорее на общий дух, а не на букву. Также стоит попытаться определить ваши собственные ценности, а не считать, что вы обязаны следовать именно этим.

Передатчики и приёмники

Во время наших исследований мы обнаружили, что разговоры, в которых в основном участвует лишь два человека, идут лучше. Мы не хотим сказать, что не должно быть разговоров, в которых участвует три и более человека, однако в течении любого пятиминутного отрезка времени, разговаривать в основном должны только два человека — тот, кто пытается донести какую-то информацию, и тот, кто пытается её понять.(При этом именно понимание стоит оптимизировать в первую очередь. Обсуждение какой-либо темы на таком уровне, что четыре или пять разных людей способны отслеживать все нюансы, обычно приносит меньше пользы)

Назовём эти две роли «передатчик» и «приёмник». Вы можете передавать:

  • Конкретный вопрос или замешательство.
  • Модель или цепочку рассуждений.
  • Кусок важной информации, которая необходима, чтобы по-настоящему понимать идущее обсуждение.

«Приёмник» может:

  • Пересказывать «передатчику» то, что тот сказал, другими словами. Это позволяет «передатчику» понимать, успешно ли передана информация.
  • Делать заметки на маркерной доске или рисовать диаграммы, и просить «передатчика» проверять, что получается. Делайте это настолько строго, насколько возможно. Пытайтесь записывать утверждения на языке логики и превращать нестрогие аргументы в доказательства. Для подобного понимания информации хорошо подходит теория типов. Даже просто точно записывать типы данных, соответствующие обсуждаемым сущностям, может быть очень полезно.
  • Подавлять желание прервать «передатчика», когда тот говорит что-то уже понятное. Для этого подходит следующий приём: попытайтесь придумать как минимум две интерпретации и спросите, как их различить.
  • Придерживаться гипотезы, что «передатчик» пытается рассказать о чём-то интересном. Избегайте режима «критика», который приведёт к тому, что «передатчику» будет сложнее думать и выражать свои мысли. Даже если в том, что явно сказал «передатчик» зияет дыра, ваша задача — помочь ему найти ту крупицу интуиции, которая позволит продолжить рассуждение и по-возможности превратить его в полезную идею.
  • Обращать внимание на замешательство и говорить, если что-то в вашей картине не стыкуется. Задавать уточняющие вопросы. Ваша задача как «приёмника» не просто кивать или создавать у «передатчика» чувство, что его понимают. Будьте мягче, когда необходимо, чтобы помочь «передатчику» нащупать то, что он пытается сообщить. Но когда он это нащупал, ваша задача вытащить из него всё в подробностях!
  • Если идея «передатчика» выглядит вполне чёткой, «приёмник» может начать искать в ней уязвимые места. Критика неоформившейся идеи часто мешает делу, однако, если речь идёт о ясном осмысленном предложении, критика вполне имеет смысл.
  • Искать следствия того, что говорит «передатчик». («А, но тогда получается X!» или «Из этого ведь следует Х?», и так далее.) Это служит как минимум трём целям. Во-первых, это позволяет «передатчику» понять, что вы видите, почему эта идея окажется совершенно потрясающей, если она работает. Ведь вы с её помощью уже делаете что-то полезное. Это стимулирует. Во-вторых, это позволяет понять, успеваете ли вы за мыслью. В-третьих, совершенно абсурдный вывод позволит предположить, что вы зашли куда-то не туда, и стоит вернуться назад, чтобы понять, где ошибка.
  • Играть роль доброго тролля - когда у «передатчика» ничего не получается или их вообще нет, потому что ни у кого нет идей. Сыграйте роль Сократа. Задавайте вопросы о вроде бы базовых штуках и попытайтесь показать, что они все не имеют смысла. Или защищайте нелепую точку зрения. (Тролль иногда кажется «передатчиком», но по сути он «приёмник».)

«Передатчик» должен чувствовать, что в попытках выразить свою интуицию, он может делать любые утверждения, в том числе «абсолютно ложные». Попытайтесь создать нормы, где вы можете попросить «приёмников» помочь вам выделить из того, что вы говорите, ядрышко истины, а не уничтожать полуоформившиеся идеи, потому что они наполовину неверны. Не важно, насколько «приёмники» избегают моральных суждений. Нужно, чтобы «передатчик» время от времени мог сказать что-то вроде «всё, что я собираюсь сказать, полностью неверно, но …»

«Передатчик» при этом должен руководствоваться своей интуицией и любопытством. Направлять разговор в наиболее интересное русло, а не пытаться создать хорошее впечатление или развлечь. «Передатчик» не обязан отвечать на вопросы «приёмника», сказать: «прямо сейчас я не хочу об этом думать» — вполне нормально.

Смысл в том, что «приёмник» помогает «передатчику» породить идею. Поэтому именно «передатчик» решает, что в данный момент более важно, а «приёмник» работает усилителем, поставщиком интуиции, а также источником (небольшого) хаоса.

Тем временем, всем остальным присутствующим стоит попробовать себя в роли посредников/переводчиков. Они должны наблюдать одновременно и за «передатчиком», и за «приёмником», и строить модели, что происходит в их диалоге. Где они упускают мысль собеседника? Где они не понимают, что именно хочет узнать собеседник? Может быть, у них срабатывает эффект подтверждения или двойная иллюзия прозрачности? Может, они соглашаются, что какое-то утверждение разумно, не понимая его до конца?

Остальным присутствующим имеет смысл вбрасывать в разговор важные мысли, модели, вопросы (но их вмешательство не должно превышать 10% от всех слов в беседе). Иногда вмешательство приведёт к смене ролей: кто-нибудь из слушателей станет «передатчиком» или «приёмником» или «передатчик» и «приёмник» поменяются местами.

Высокие стандарты

После одной или двух встреч довольно неловко не приглашать кого-то в следующий раз и, тем более, напрямую запрещать придти. Но разрушить всю группу MIRIx из-за чрезмерной застенчивости или неуверенности — ещё хуже.

Явно обозначьте разницу между «добро пожаловать на встречу» и «теперь ты в нашей команде». Позаботьтесь о том, чтобы все знали, кто именно принимает решения. Пусть он/она/они будут не обязаны объяснять своё решение. (Если вы не доверяете чьим-то суждениям без объяснений, этот человек не должен принимать решения.) Доверяйте своей интуиции. Если вам кажется, что некто не сочетается с атмосферой, которую вы хотите создать, не приглашайте его. Подумайте о том, чтобы требовать несколько рекомендаций или устраивать собеседование. Возможно, вам кажется, что это излишне, но исключать людей обычно тяжело, а формальный процесс приёма воспринимается как более справедливый.

Также подумайте, не стоит ли записать в явном виде этические правила или совместные обязательства, под которыми люди будут подписываться, когда они становятся частью команды. Убедитесь, что вы действительно хотите всерьёз поддерживать именно эти стандарты (например, «нужно посещать не меньше половины встреч» или «всё обсуждаемое на встречах не следует разглашать, если явно не сказано об обратном»).

Возрастание требований и вознаграждений

Представьте модель школы боевых искусств. Когда туда приходит новичок, инструкторы его мало о чём просят (например, ударь цель ногой с громким криком). Вскоре за это его вознаграждают поясом и некоторым статусом.

После этого требования возрастают. Ученика с жёлтым поясом уже могут попросить пару минут наблюдать за учениками с белыми и поправлять их. В ответ те должны кланяться и говорить «сэр» или «мэм».

Дальше требования растут дальше и соответственно растёт награда. Такой цикл поощряет обязательства и вложения: человек постоянно получает доказательства: «если я что-то вложил, то я что-то получу, и чем больше я вложил, тем больше я получу». В какой-то момент ученик получает чёрный пояс и его могут пригласить в штат инструкторов или предложить основать свой филиал школы.

В большинстве групп и организаций происходит примерно то же самое. Если группа ничего не просит (или просит мало) от своих членов, они не платят ей верностью. Люди вовлекаются в группу в той мере, в которой группа позволяет им рассказывать приятные (или эпические) истории о себе.

Для групп MIRIx это тоже может быть верным. Подумайте, не стоит ли завести небольшие примерно одинаковые задания для большинства новичков (например, прочитать такие-то и такие-то статьи или на третьей встрече сделать десятиминутный доклад на интересную им тему). Попробуйте построить последовательность просьб и вознаграждений дальше (например, на пятой встрече ты будешь управлять повесткой дня и делить всех на группы).

Структура и свободное пространство

Этот пункт связан с предыдущим. Важно уметь уравновешивать в своей группе MIRIx нисходящие и восходящие структуры коммуникации. Если никто не понимает, «как мы тут работаем», новички путаются и им становится неуютно. Вам нужна уже существующая структура, которую люди могут оценить и определить, будет ли им с ней комфортно. Вам нужно, чтобы с самого начала было понятно «на что похожа» ваша группа. Чтобы люди, которым она подойдёт, и люди, которым она не подойдёт, могли точно определить, к какой они категории относятся.

Тем не менее, вряд ли вы хотите, чтобы ваша структура мешала вам развиваться в долгосрочной перспективе. Мастера боевых искусств рано или поздно получают право вносить изменения в собственные тренировки, а также что-то менять при обучении новых учеников. Наверняка вы тоже захотите когда-нибудь получить что-то от своей группы MIRIx. Обычно люди огорчаются, когда не могут удовлетворить какие-нибудь свои потребности. Если ваша структура будет мешать им развиваться, они уйдут искать другое место, чтобы расти.

Социальные нормы

Нормальным и принятым становится то, против чего никто не возражает. Если какое-то поведение вам не нравится и выхотите снизить его количество на встречах, вам нужно не только самим возражать против него, но также открыто и публично поддерживать других, кто тоже против него возражает. Задача группы - сделать так, чтобы каждый, кто соблюдает правила / пытается поступать правильно, никогда не оставался один против тех, кто правила нарушает.

Заранее обдумайте и публично озвучьте вопросы вида «когда можно перебивать» или «насколько допустимы значительные отступления от темы». Создавайте культуру разногласия, но стройте её на основе вежливости и поддержки, чтобы разногласия делали группу сильнее, а не превращались в перепалки. Защищайте структуры принятия решений, которые вы придумали. Будьте последовательны в вопросах полномочий и в том, когда решения становятся окончательными.

Прочие мысли и вопросы

  1. Чтобы встречи не становились однообразными, пытайтесь чередовать различные темы и активности. Читайте статьи, устраивайте презентации, проводите дискуссии, пишите формальные доказательства и статьи, и так далее. Постарайтесь, чтобы чтению или обсуждению уже существующего материала уделялось не более 50% ваших встреч. (В идеале — не более 33%.)
  2. Подумайте о том, чтобы строить долгосрочные планы вида: шесть месяцев (или год) встречи посвящаются работе над какой-то конкретной областью вопросов, чтобы группа смогла построить какой-то комплекс знаний.
  3. Однако, если вы строите долгосрочные планы, предусмотрите возможность от них отклоняться. Например, пусть каждая третья встреча будет посвящена чему-то, не связанному с основной изучаемой областью.
  4. Подумайте о том, чтобы вести протоколы встреч и сохранять их на будущее. Так вы сможете оценить свою деятельность по прошествии нескольких месяцев или года. Подумайте над идеей, стоит ли пробегаться по протоколу предыдущей встречи в начале следующей.
  5. В конце встречи назначьте кого-нибудь, чтобы он собрал список вопросов, над которыми люди хотели бы подумать, и разослал их всем. Сюда же можно добавить мысли для обсуждения на следующих встречах. Подумайте о том, чтобы заранее определяться, кто будет вести следующую встречу, чтобы он мог подготовиться.
  6. Убедитесь, что у вас есть актуальная контактная информация для всех полноценных членов команды и прочих заинтересованных лиц. Подумайте заранее о способах коммуникации: будете вы пользоваться е-мэйл рассылками, группами в фейсбуке или чем-то ещё.
  7. Подумайте о том, как вы хотите взаимодействовать с другими группами MIRIx: хотите ли вы обмениваться с ними протоколами, вопросами, или, например, посылать кого-нибудь на встречу в другую группу или принимать людей из других групп у себя. Если вы хотите взаимодействовать, предпринимайте для этого активные действия. Помните: вы такой же представитель класса, как и другие. Если вы хотите что-то делать, но ничего не делаете, вероятно, тоже самое можно будет сказать и об остальных.
  8. Подумайте, хотите ли вы проводить какие-то мероприятия для обычных людей или для потенциальных новобранцев (например, на факультетах математики или информатики). Подумайте, хотите ли вы попробовать более амбициозные проекты, например, устроить летнюю школу, и пригласить людей, у которых есть знания и ресурсы, чтобы не изобретать колесо.
  9. Если ваша группа MIRIx существует в вузе, постарайтесь подумать над вопросом, как вы будете искать студентов младших курсов, которые займут место старшекурсников, когда те закончат вуз. Если вы не связаны с академической средой, подумайте, откуда вы будете брать новых людей. Заметим, что большой приток новичков редко бывает полезен и создаёт культурные проблемы. Лучше добавлять новых людей по одному или по двое, чтобы они могли привыкнуть к группе и группа к ним.
  10. Помните, что качество исследований, дискуссий и всей группы MIRIx в целом зависит от действий участников группы и от того, как их действия сочетаются между собой. Позаботьтесь о том, чтобы это понимали все — ваша группа будет настолько хороша, насколько каждый из вас захочет таковой её сделать.

Эпилог

Вы почти дочитали до конца текста! Надеемся, вы в нём встретили какую-то полезную информацию, а также здоровую пищу для размышлений. Перед тем, как вы перейдёте к другим делам, мы советуем потратить секунд 30 на размышления над следующими вопросами:

  • Почему мы решили написать этот текст? Что мы ожидали получить, и что подтолкнуло нас выбрать из всех возможностей именно такой формат и содержание?
  • Что вас огорчило или не устроило? Чего в этом тексте не хватает? Что мы упустили? Откуда вы узнали о тех вещах, которые мы упустили?
  • Какой текст написали бы вы? Как бы вы поняли, что написать такой текст - хорошая идея? Как бы вы определяли, что в нём стоит упомянуть?
  • Как, чёрт побери, вообще достигается прогресс?

Счастливой охоты.

— Команда исследователей MIRI.

  • 1. В оригинале «AI alignment». Пока у этого термина нет устоявшегося перевода на русский язык. — Прим.перев.
  • 2. В оригинале «embedded agency». — Прим.перев.
Перевод: 
Alaric
Оцените качество перевода: 
Средняя оценка: 5 (3 votes)

Дискуссия Нго и Юдковского про сложность задачи согласования

Элиезер Юдковский, Ричард Нго

Примечание редактора сайта: Под «согласованием» в заголовке и далее в тексте подразумевается англоязычное «[AI] alignment». В некоторых других статьях на этом сайте этот термин переводился как «соответствие [ИИ целям оператора]». Пока перевод этого термина на русский в сообществе не устоялся.

* * *

Этот пост – первое из серии обсуждений в Discord между Ричардом Нго и Элиезером Юдковским, под модерацией Нейта Соареса. Ричард и Нейт так же резюмировали ход разговора и ответы собеседников в Google Docs, это также добавлено сюда.

В позднейших обсуждениях принимали участие Аджейя Котра, Бет Барнс, Карл Шульман, Холден Карнофски, Яан Таллинн, Пол Кристиано, Роб Бенсингер и Робин Шах.

Это полные записи нескольких созданных MIRI для дискуссий каналов в Discord. Мы пытались как можно меньше редактировать записи сверх исправления опечаток и вводящих в замешательство формулировок, разбивания на параграфы и добавления ссылок. МЫ не редактировали значимое содержание, за исключением имён людей, которые предпочли, чтобы их не упоминали. Мы поменяли порядок некоторых сообщений для ясности и непротиворечивого потока обсуждения (в таких случаях время особо отмечено), и скомбинировали разные логи, когда обсуждение переключалось между каналами.

Предварительные комментарии

[Yudkowsky][8:32] (6 ноября)

(По просьбе Роба, я постараюсь быть кратким, но это экспериментальный формат и некоторые всплывшие проблемы выглядят достаточно важными, чтобы их прокомментировать)

Главным образом в ранней части этого диалога у меня были некоторые уже сформированные гипотезы на тему “Что будет главной точкой несогласия и что мне говорить по этому поводу”, что заставляло меня отклоняться от чистой линии обсуждения, если бы я просто пытался отвечать на вопросы Ричарда. Перечитывая диалог, я заметил, что это выглядит уклончиво, будто я странным образом упускаю суть, не отвечая напрямую на вопросы.

Зачастую ответы даны позднее, по крайней мере, мне так кажется, хотя, может, и не в первой части диалога. Но в целом вышло так, что я пришёл высказать некоторые вещи, а Ричард пришёл задавать вопросы, и получилось небольшое случайное несовпадение. Выглядело бы лучше, если бы, скажем, мы оба сначала выставили свои позиции без знаков вопроса, или если бы я ограничил себя ответами на вопросы Ричарда. (Это не катастрофа, но читателю стоит учитывать это как небольшую неполадку, проявившуюся на ранней стадии экспериментов с этим новым форматом.)

[Yudkowsky][8:32] (6 ноября)

(Подсказано поздними попытками резюмировать диалог. Резюмирование выглядит важным способом распространения для такого большого диалога, и следующая просьба должна быть особо указана, чтобы к ней прислушивались – встроенные в диалог указания не работают.)

Пожалуйста, не резюмируйте этот диалог, говоря “и ГЛАВНАЯ идея Элиезера такая” или “и Элиезер думает, что КЛЮЧЕВОЙ МОМЕНТ в том” или “ОСНОВНОЙ аргумент таков” и.т.д. Мне кажется у всех свои наборы камней преткновения и того, что считается очевидным, и обсуждение с моей стороны сильно меняется в зависимости от них. Когда-то камнями преткновения были Тезис Ортогональности, Инструментальная Конвергенция и возможность суперинтеллекта в принципе; сейчас у большинства связанного с Open Philanthropy народа они уже другие.

Пожалуйста, преобразуйте:

  • “Основной ответ Элиезера в том…” -> “Элиезер ответил, что…”
  • “Элиезер считает, что ключевой момент в том…” -> “Элиезер в ответ указал, что…”
  • “Элиезер считает, что основная проблема в том…” -> “Элиезер ответил, что есть проблема в том…”
  • “Главный аргумент Элиезера против этого был…” -> “Элиезер возразил тем…”
  • “Элиезер считает, что основной сценарий тут…” -> “В обсуждении в сентябре 2021, Элиезер обрисовал гипотетический сценарий, где…”

Замечу, что преобразованные утверждения говорят о том, что вы наблюдали, тогда как изначальные - это (зачастую неправильные) выводы о том, что я думаю.

(Однако, “различать относительно ненадёжные выводы от более надёжных наблюдений” – не обязательно ключевая идея или главная причина, по которой я этого прошу. Это просто моё замечание – один аргумент, который, я надеюсь, поможет донести больший тезис.)

Обсуждение 5 сентября

Глубокие и поверхностные шаблоны решения задач

[Ngo][11:00]

Всем привет! С нетерпением жду дискуссии.

[Yudkowsky][11:01]

Привет и добро пожаловать. Моё имя Элиезер и я думаю, что согласование ИИ на самом деле довольно невероятно очень сложно. Кажется, некоторые люди так не думают! Это важная проблема, которую нужно как-то решить, надеюсь, мы сегодня это сделаем. (Однако, я хочу сделать перерыв через 90 минут, если это столько продлится и если суточный цикл Нго позволит продолжать после этого.)

[Ngo][11:02]

Перерыв через 90 минут или около того звучит хорошо.

Вот как можно начать? Я согласен, что согласование людьми произвольно мощного ИИ выглядит очень сложной задачей. Одна из причин, по которым я более оптимистичен (или, по крайней мере, не уверен, что нам придётся столкнуться с полноценной очень сложной версией этой задачи) – это то, что с определённого момента ИИ возьмёт на себя большую часть работы.

Когда ты говоришь о том, что согласование сложное, о согласовании каких ИИ ты думаешь?

[Yudkowsky][11:04]

В моей модели Других Людей, зачастую когда они думают, что согласование не должно быть таким уж сложным, они считают, что есть какая-то конкретная штука, которую можно сделать, чтобы согласовать СИИ, и она не очень сложная. И их модель упускает одну из фундаментальных сложностей, из-за которой не получится выполнить (легко или совсем) какой-то шаг их метода. Так что одно из того, что я делаю в обсуждении – это попытаться расковырять, про какой же именно шаг собеседник не понимает, что он сложный. Сказав это, я теперь попробую ответить на твой вопрос.

[Ngo][11:07]

Я не думаю, что уверен в какой-нибудь конкретной штуке, позволяющей согласовать СИИ. Однако я чувствую неуверенность по поводу того, в насколько большом диапазоне возможностей эта задача может оказаться сложной.

И по некоторым важным переменным, кажется, что свидетельства последнего десятка лет склоняют к тому, чтобы посчитать задачу более простой.

[Yudkowsky][11:09]

Я думаю, что после того, как станет возможным СИИ вообще и его масштабирование до опасного сверхчеловеческого уровня, будет, в лучшем случае, если будут решены многие другие социальные сложности, период от 3-х месяцев до 2-х лет, когда лишь у нескольких действующих лиц есть СИИ, что означает, что этим действующим лицам будет социально-возможно просто решить не масштабировать его до уровня, на котором он автоматически уничтожает мир.

В течении этого периода, чтобы человечество выжило, кто-то должен произвести некое действие, из-за которого мир не будет уничтожен через 3 месяца или 2 года, когда уже у слишком многих будет доступ к коду СИИ, уничтожающего мир, если повернуть рубильник его интеллекта достаточно сильно. Это требует того, чтобы кто-то из первых действующих лиц, создавших СИИ сделал с помощью него что-то, что предотвратит уничтожение мира. Если бы это не требовало суперинтеллекта, мы могли бы сделать это сейчас, но, насколько мне известно, никакого такого доступного людям действия нет.

Так что мы хотим наименее опасное, наиболее легко согласовываемое действие-при-помощи-СИИ, но при этом достаточно мощное, чтобы предотвратить автоматическое разрушение Земли через 3 месяца или 2 года. Оно должно “опрокинуть игровую доску”, не позволив начаться суицидальной игре. Мы должны согласовать СИИ, который осуществит это ключевое действие, чтобы он мог его осуществить, не убив всех.

Замечу в скобках, ни одно достаточно мощное и доскоопрокидывающее действие не умещается в Окно Овертона политики, или, возможно, даже эффективного альтруизма, что представляет отдельную социальную проблему. Я обычно обхожу эту проблему, приводя пример достаточно мощного для опрокидывания доски, но не самого согласовываемого, потому что оно требует слишком много согласованных частей: создать самовоспроизводящиеся в воздухе наносистемы и использовать их (только), чтобы расплавить все GPU.

Поскольку любой такой наносистеме придётся действовать в целом открытом мире, включающем множество сложных деталей, это потребует очень много работы по согласованию, так что это ключевое действие согласовать сложно, и нам стоит сделать что-то другое. Но другая штука, которая есть у меня в мыслях, точно так же за пределами Окна Овертона. Так что я использую “расплавить все GPU”, чтобы указать на требуемую мощность действия и проблему с Окном Овертона, и то и другое мне кажется приблизительно правильного уровня, но то, что я держу в голове проще согласовать. Таким образом, на “Как ты смеешь?” я всегда могу ответить “Не беспокойся, я не собираюсь на самом деле это делать.”

[Ngo][11:14]

Мы могли бы продолжить обсуждение, обсудив ключевое действие “работать над проблемой согласования быстрее, чем могут люди.”

[Yudkowsky][11:15]

Для меня это звучит как что-то требующее высочайшего уровня согласованности и действующее в очень опасном режиме, так что, если можно сделать это, разумнее сделать какое-нибудь другое ключевое действие, использующее меньший уровень технологии согласования.

[Ngo][11:16]

Окей, тут, кажется, трудности с пониманием с моей стороны.

[Yudkowsky][11:16]

В частности, я надеюсь, что – в маловероятном случае нашего выживания – мы сможем выжить, использовав суперинтеллект в смертельно опасном, но всё же менее смертельно опасном режиме “проектирования наносистем”.

А вот “реши для нас согласование” кажется действующим в ещё более опасных режимах “пиши для нас код ИИ” и “очень точно смоделируй человеческую психологию”.

[Ngo][11:17]

Что делает эти режимы такими опасными? То, что людям очень сложно за ними присматривать?

Эти режимы кажутся мне менее опасными в частности потому, что они попадают скорее в область “решения интеллектуальных задач”, а не “достижения последствий в мире”.

[Yudkowsky][11:19][11:21]

Любой вывод ИИ приводит к последствиям в мире. Если выводы исходят от мощного несогласованного разума, то они могут начать причинно-следственную цепочку, приводящую к чему-нибудь опасному, независимо от того, стоит ли в коде комментарий “интеллектуальная задача”.

“Решать интеллектуальные задачи” опасно, когда для этого необходим мощный разум, рассуждающий об областях, которые, будучи решёнными, предоставляют когнитивно-доступные стратегии как сделать что-то опасное.

Я ожидаю, что первое решение согласования, которым можно будет на самом деле пользоваться, в том маловероятном случае, что мы его получим, будет выглядеть на 98% как “не думай обо всех тех темах, которые нам не строго необходимы, и которые близки к способности легко изобрести очень опасные выводы” и на 2% как “всё-таки думай про эту опасную тему, но, пожалуйста, не приходи к стратегиям в ней, которые нас всех убьют”.

[Ngo][11:21][11:22]

Позволь мне попытаться уточнить разделение. Мне кажется, что системы, изначально натренированные делать предсказания о мире, не будут по умолчанию иметь когнитивный аппарат, позволяющий людям совершать действия для преследования своих целей.

Наверное, можно переформулировать мою точку зрения так: мне не кажется неправдоподобным, что мы создадим ИИ значительно умнее (в смысле способности понимать мир), чем люди, но значительно менее агентный.

Есть ли у тебя с этим проблемы?

(очевидно, “агентный” тут довольно недоопределено, может, стоит это пораскапывать)

[Yudkowsky][11:27][11:33]

Я бы точно узнал совсем новые и удивительные факты про интеллект, действительно противоречащие моей модели того, как работают интеллекты, могущие появиться в рамках текущей парадигмы, если ты покажешь мне… как бы это выразить в общем случае… что задачи, которые я считал задачами про поиск состояний, получающих высокую оценку при скармливании их в функцию результатов, а затем в функцию оценки результатов, на самом деле задачи про что-то другое. Я иногда даю более конкретные названия, но, думаю, люди приходят в замешательство от моих обычных терминов, так что я их обошёл.

В частности, так же как в моей модели Убеждений Других Людей они считают, что согласование простое, потому что они не знают про сложности, которые я вижу как очень глубокие и фундаментальные и сложноизбегаемые, так же в этой модели они думают “почему бы просто не создать ИИ, который будет делать X, но не Y?” потому что они не осознают, что у X и Y общего, потому что для этого нужно иметь глубокую модель интеллекта. И этот глубокий теоретический разрыв сложно перешагнуть.

Но вообще можно найти неплохие практические подсказки на то, что эти штуки куда более скоррелированны, чем, скажем, считал Робин Хансон во время нашего FOOM-спора. Робин не думал, что может существовать что-то вроде GPT-3; он считал, что потребуется проводить обучение на множестве узких областей, которые не будут обобщаться. Я тогда возразил, что у людей есть зрительная кора и мозжечок, но нет Коры Проектирования Автомобилей. Потом оказалось, что реальность на более Элиезеровской стороне оси Элиезер-Робин, чем я, и что штуки вроде GTP-3 менее архитектурно сложны и больше обобщаются, чем я тогда доказывал Робину.

Иногда я использую метафору о том, что очень сложно создать систему, которая будет уметь водить красные машины, но не будет очень похожа на систему, которая, с небольшими изменениями, будет уметь водить синие. Задача “водить красную машину” и задача “водить синюю машину” имеют слишком много общего. Ты можешь предложить: “Согласуй систему так, чтобы у неё была возможность водить красные машины, но чтобы она отказывалась водить синие”. Ты не можешь создать систему, которая будет очень хороша в вождении красных машин, но совершенно не умеет водить синие из-за ненатренированности на это. Градиентный спуск, генетический алгоритм или любой другой правдоподобный метод оптимизации обнаружит очень похожие шаблоны для вождения красных и синих машин. Оптимизируя для красных машин, ты получишь способность водить синие, хочешь ты того или нет.

[Ngo][11:32]

Отвергает ли твоя модель интеллекта возможность создания ИИ, сильно продвигающего математику без убийства нас всех?

[Yudkowsky][11:34][11:39]

Если бы было возможно совершить какое-нибудь ключевое действие для спасения мира с ИИ, который может лишь доказывать математические теоремы, без необходимости, например, объяснять доказательства людям, я был бы невероятно заинтересован в этом как в потенциальном ключевом действии. Я не достиг бы полной ясности, и всё ещё не знал бы, как создать ИИ, не убив всех, но такое действие немедленно стало бы очевидным первоочередным направлением разработок.

Кстати, моя модель интеллекта отвергает очень-очень мало возможностей. Я думаю, что мы все умрём, потому что у нас не получится сделать правильно некоторые опасные вещи с первого раза в опасном режиме, где одна ошибка уже фатальна, причём сделать их до того, как нас убьёт распространение куда более простых технологий. При наличии Учебника Из Будущего Через Сто Лет, в котором для всего приведены простые надёжные действительно работающие решения, вполне можно было бы воспользоваться методами из него, чтобы написать суперинтеллект, который думает, что 2 + 2 = 5.

(В учебнике есть эквивалент “используйте ReLu вместо сигмоид” для всего и нету всех по-умному звучащих штук, которые работают на дочеловеческих уровнях, и лажают, если применить их для суперинтеллекта.)

[Ngo][11:36][11:40]

Хм-м-м, предположим, что мы натренировали ИИ доказывать теоремы, возможно, с помощью какого-нибудь состязательного обучающего процесса “составить задачу - решить задачу”.

Моя интуиция говорит, что по умолчанию этот ИИ сможет научиться очень хорошо – далеко за пределами человеческого уровня – доказывать теоремы, не имея целей касательно реального мира.

Я так понял, что в твоей модели интеллекта способность к решению математических или сходных задач плотно связана с попытками достижения результатов в реальном мире. Но для меня GPT-3 является свидетельством против такой позиции (хотя всё ещё и свидетельством в пользу твоей позиции относительно позиции Хансона), ведь она кажется способной к некоторым рассуждениям, будучи не особо агентной.

В альтернативном мире, в котором у нас не получилось натренировать языковую модель на некоторые рассудительные задачи, не натренировав её вначале на выполнение задач в сложном RL-окружении, я был бы значительно менее оптимистичен.

[Yudkowsky][11:41]

Я скажу, что в твоих оценках есть предсказуемое искажение из-за того, что ты, не зная о Глубоких Штуках, нужных для доказательства теорем, представляешь, что они менее похожи на иные когнитивные способности, чем на самом деле. Зная о том, как именно люди используют свою способность рассуждать о каменных топорах и других людях для доказательства математических теорем, ты бы считал более правдоподобным обобщение способности доказывать теоремы до топоров и манипуляции людьми.

Моё мнение о GPT-3… сложно соотносится с моими взглядами на интеллект. Там взаимодействует огромное количество выученных неглубоких паттернов. Крайне маловероятно, что GPT-3 похожа на то, как естественный отбор создал людей.

[Ngo][11:44]

С последним я соглашусь. Но это и есть одна из причин, почему я заявил, что ИИ может быть умнее людей, будучи менее агентным, ведь есть систематические различия между тем, как естественный отбор создал людей, и тем, как мы обучаем ИИ.

[Yudkowsky][11:45]

Я подозреваю, что просто “Больше Слоёв” будет недостаточно, чтобы привести нас к GPT-6, являющейся настоящим СИИ; потому, что GPT-3, по твоей терминологии, не агентна, и, по моей терминологии, градиентный спуск от GPT-3 не обнаружит достаточно глубоких шаблонов решения задач.

[Ngo][11:46]

Окей, это помогло мне лучше понять твою позицию.

Есть одно важное различие между людьми и нейросетями: у людей есть проблема низкой пропускной способности генома, что означает, что каждый индивид должен перевывести знания о мире, которые уже были у его родителей. Если бы это ограничение не было таким жёстким, отдельные люди были бы значительно менее способны к решению новых задач.

[Yudkowsky][11:50]

Согласен.

[Ngo][11:50]

В моей терминологии, это причина, по которой люди “более агентны”, чем были бы иначе.

[Yudkowsky][11:50]

Звучит бесспорно.

[Ngo][11:51]

Другое важное различие: обучение людей проходило в условиях, где нам надо было целыми днями заниматься выживанием, а не решать математические задачи и тому подобное.

[Yudkowsky][11:51]

Я продолжаю кивать.

[Ngo][11:52]

Предположим, я соглашусь, что достижение некоторого уровня интеллекта потребует у ИИ “глубоких паттернов решения задач”, о которых ты говоришь, и поэтому ИИ будет пытаться достичь целей в реальном мире. Всё ещё кажется, что может быть много пространства между этим уровнем интеллекта и человеческим.

И если так, то можно создать ИИ, который поможет нам решить задачу согласования до ИИ с достаточно глубокими паттернами решения задач для того чтобы задумать захватить мир.

А ещё причина, по которой люди хотят захватить мир, кажется не связанной с глубинными фактами про наш интеллект. Скорее мне видится, что люди хотят захватить мир в основном потому, что это очень похоже на штуки, для которых мы эволюционировали (вроде захвата власти в племени).

[Yudkowsky][11:57]

Вот часть, с которой я соглашусь: если бы была одна теорема, лишь слегка за пределами человеческих возможностей, вроде гипотезы-ABC (если ты не считаешь её уже доказанной), и получение машинно-читаемого доказательства этой теоремы немедленно спасало бы мир – скажем, инопланетяне дали бы нам согласованный суперинтеллект, как только мы дадим им это доказательство – тогда существовал бы правдоподобный, хоть и не очень надёжный путь к спасению мира через попытку создать поверхностный разум для доказательства гипотезы-ABC, запомнивший через игру с самим собой кучу относительно поверхностных шаблонов математических доказательств, но так и не дошедший до человеческих уровней математической абстракции, просто обладающий достаточным объёмом памяти и глубиной поиска для этой задачи. Для ясности – я не уверен, что это могло бы сработать. Но моя модель интеллекта не отвергает такой возможности.

[Ngo][11:58]

(Я скорее думал о разуме, который понимает математику глубже, чем люди – но только математику, или, может, ещё некоторые науки.)

[Yudkowsky][12:00]

Части, с которыми я не согласен: что “помоги нам решить согласование” в достаточной степени похоже на “предоставь нам машинно-читаемое доказательство гипотезы-ABC, не думая о ней слишком глубоко”. Что люди хотят захватить мир только потому, что это напоминает штуки, для которых мы эволюционировали.

[Ngo][12:01]

Я определённо согласен, что люди хотят захватить мир не только потому, что это напоминает штуки, для которых мы эволюционировали.

[Yudkowsky][12:02]

Увы, но отбрасывание 5 причин, почему что-то пойдёт не так, не слишком поможет, если есть 2 оставшиеся причины, от которых куда сложнее избавиться.

[Ngo][12:02]

Но если мы представим интеллект человеческого уровня, который не эволюционировал для штук, напоминающих захват мира, то я ожидаю, что мы могли бы довольно безопасно задавать ему вопросы.

И что это также верно для интеллекта заметно выше человеческого уровня.

Так что вопрос: насколько выше человеческого уровня мы можем забраться прежде, чем система, обученная только штукам вроде ответов на вопросы и пониманию мира, решит захватить мир?

[Yudkowsky][12:04]

Я думаю, что это один из редких случаев, когда разрыв в интеллекте между “деревенским дурачком” и “Эйнштейном”, который я обычно считаю очень узким, имеет важное значение! Я думаю, ты можешь получать выводы от СИИ-уровня-деревенского-дурачка, обученного исключительно на математике, и это навееееерное не уничтожит мир (если ты не ошибаешься, с чем имеешь дело). Уровень Эйнштейна беспокоит меня куда больше.

[Ngo][12:05]

Давай тогда сосредоточимся на уровне Эйнштейна.

Человеческий мозг довольно слабо оптимизирован для занятия наукой.

Можно предположить, что создать ИИ, который занимается наукой на уровне-Эйнштейна значительно проще, чем создать ИИ, который захватывает мир на уровне-Эйнштейна (или делает что-то ещё, для чего эволюционировали люди).

[Yudkowsky][12:08]

Я думаю, что соглашусь с буквальной истинностью сказанного в некотором широком смысле. Но ты будешь систематически переоценивать, насколько проще, или как далеко ты можешь продвинуть научную часть, не получив захватывающую мир часть, пока твоя модель игнорирует, сколько между ними общего.

[Ngo][12:08]

Тогда, может, самое время рассмотреть детали того, что между ними общего.

[Yudkowsky][12:09][12:11]][12:13]

Мне кажется, у меня не очень получалось объяснить это в прошлые разы. Не тебе, другим людям.

Есть поверхностные темы, вроде того, почему философские зомби не могут существовать, и как работает квантовая механика, и почему наука должна использовать функции правдоподобия вместо p-критериев, и я едва могу объяснить их некоторым людям. А есть вещи, которые объяснить намного сложнее, они находятся за пределами моих способностей к объяснениям.

Поэтому я пытаюсь указать, что даже если ты не знаешь конкретики, ты можешь признать существование искажения твоей оценки.

Конечно, я не был очень успешен и говоря людям “Ну, даже если ты не знаешь правды про X, которая позволила бы тебе увидеть Y, разве не понятно тебе из абстрактных размышлений, что любая правда о X предсказуемо сдвинет твои убеждения в сторону Y?”, люди, кажется, такое не очень понимают. Не ты, в других дискуссиях.

[Ngo][12:10][12:11][12:13]

Осмысленно. Могу ли я сделать это проще? Например, могу попробовать изложить то, как я вижу твою позицию.

Учитывая то, что ты сказал, я не очень рассчитываю, что это сильно поможет.

Но раз уж это основные источники твоих заявлений, стоит попробовать.

Другой подход – сосредоточиться на предсказаниях развития способностей ИИ в ближайшие пять лет.

Я приму твоё предупреждение про искажение оценки. Мне кажется, что есть и обратное искажение от того, что, пока мы не знаем механизмы работы разных человеческих способностей, мы склонны представлять их одной и той же штукой.

[Yudkowsky][12:14]

Ага. Если не знать про зрительную кору и слуховую кору, или про глаза и уши, то можно было бы предположить, что любое сознание невозможно без зрения и слуха.

[Ngo][12:16]

Так что моя позиция такая: люди преследуют цели из-за эволюционно вложенных эмоций и сигналов подкрепления, и без них мы были бы куда безопаснее, но не особо хуже в распознавании паттернов.

[Yudkowsky][12:17]

Если бы было ключевое действие, которое можно выполнить с помощью всего лишь сверхчеловеческого распознавания паттернов, это точно так же как “ключевое действие только из математики” мгновенно стало бы основным направлением разработок.

[Ngo][12:18]

Мне кажется, что математика куда в большей степени про распознавание паттернов, чем, скажем, управление компанией. Управление компанией требует последовательности на протяжении длительных промежутков времени, долговременной памяти, мотивации, осознанности, и т.д.

[Yudkowsky][12:18][12:23]

(Одно направление исследований можно было приблизительно описать как “как насчёт ключевого действия, состоящего исключительно из предсказания текста”, и моим ответом было “вы пытаетесь получить полноценные способности СИИ, предсказывая текст про глубокое/“агентное“ мышление, так что это ничем не лучше”.)

Человеческая математика очень даже про достижение целей. Люди хотят доказать леммы, чтобы потом доказать теоремы. Может и можно создать не такого математика, чья опасная непонятная часть, состоящая из векторов вещественных чисел, действует скорее как GPT-3. Но и тогда снаружи потребуется что-то больше похожее на Alpha-Zero для выбора направления поиска.

Возможно, эта наружная оболочка может быть достаточно мощной и не будучи рефлексивной. Так что правдоподобно, что куда проще создать математика, способного к сверхчеловеческому доказательству теорем, но не агентного. Реальность может сказать нам “лол, нет”, но моя модель интеллекта её не обязывает. Поэтому, если ты дашь мне ключевое действие, состоящее исключительно из “вывести машиночитаемое доказательство такой-то теоремы, и мир спасён”, то я бы выбрал его! Это и правда выглядит куда проще!

[Ngo][12:21][12:25]

Окей, попробую перефразировать твой аргумент:

Твоя позиция: существует фундаментальное сходство между задачами вроде математики, исследования согласования и захвата мира. Для того, чтобы хорошо обучиться чему-то из этого, агенту, основанному на чём-то похожем на современное машинное обучение, надо будет усвоить глубокие паттерны решения задач, включающие мышление, ориентированное на достижение целей. Так что хоть и возможно превзойти людей в какой-то одной из этих задач без этих общих компетенций, люди обычно переоценивают степень, в которой это возможно.

[Yudkowsky][12:25]

Напомню, я беспокоюсь в основном о том, что произойдёт первым, особенно если это произойдёт достаточно скоро, чтобы этот будущий СИИ был хоть сколько-нибудь похож на современные системы машинного обучения. Не о том, что возможно в принципе.

[Soares][12:26]

(Замечу: прошло 85 минут, мы планировали перерыв через 90, так что сейчас, кажется, подходящий момент, чтобы ещё немного прояснить резюмирование Ричарда перед перерывом)

[Ngo][12:26]

Я исправлю на, скажем, “правдоподобно для техник машинного обучения?”

(и “степень, в которой это правдоподобно”)

[Yudkowsky][12:28]

Я думаю, что очевидное-для-меня будущее развитие современных парадигм ML по дороге к значительно сверхчеловеческому X крайне вероятно придёт к обобщениям, приводящим к захвату мира. Насколько быстро это произойдёт, зависит от X. Правдоподобно, что это произойдёт относительно медленно, если взять как X доказательство теорем, использовать архитектуру, запоминающую осторожным градиентным спуском сеть поверхностных архитектур для распознавания паттернов, и убрать часть, отвечающую за поиск (типа того, это не безопасно в общем, это не универсальная формула для безопасных штук). Медленнее, чем если ввести что-то вроде генетического бутылочного горлышка, на которое ты правильно указал, как на причину, почему люди научились обобщать. Выгодные X и любые X, которые я могу представить подходящими для спасения мира, кажутся куда более проблематичными.

[Ngo][12:30]

Окей, с удовольствием возьму перерыв сейчас.

[Soares][12:30]

Как раз вовремя!

[Ngo][12:30]

Мы можем потом немного пообсуждать на метауровне; у меня возник порыв удариться в вопрос о том, насколько Элиезер считает исследования согласования похожими на доказательства теорем.

[Yudkowsky][12:30]

Ага. У меня сейчас полдник (на самом деле, первая еда за день на 600-калорийной диете), так что я могу вернуться через 45 минут, если тебе это подходит.

[Ngo][12:31]

Конечно.

Ещё, если нас читают в реальном времени, и у вас есть предложения или комментарии, мне было бы интересно их выслушать.

[Yudkowsky][12:31]

Я тоже приветствую предложения и комментарии от наблюдателей во время перерыва.

[Soares][12:32]

Звучит неплохо. Я объявляю перерыв на 45 минут, после чего мы продолжим (по умолчанию на ещё 90).

Открыты к предложениям и комментариям.

Требования для науки

[Yudkowsky][12:50]

Я освобожусь пораньше, если всем (в основном Ричарду) удобно, можно продолжить через 10 минут (после 30 минут перерыва)

[Ngo][12:51]

Да, с удовольствием

[Soares][12:57]

Немного быстрых комментариев от меня:

  • Мне кажется, главный камень преткновения тут что-то вроде “стоит ли ожидать, что системы, способные к исполнению ключевого действия, будут, по умолчанию, без значительных технических усилий по согласованию, использовать свой вывод для оптимизации будущего”.
  • Мне любопытно, согласитесь ли вы, что он именно такой (но плз не отвлекайтесь слишком на ответы мне.)
  • Мне нравится, как идёт обсуждение в целом.
    • В частности, ура-ура за отчётливые аккуратные усилия по сосредоточению на ключевых моментах.

[Ngo][13:00]

Я думаю, что таков камень преткновения для конкретного ключевого действия “лучше исследовать согласование”, и может, ещё некоторых, но не для всех (и не обязательно большинства)

[Yudkowsky][13:01]

Мне стоит явно сказать, что я немного работал с Аджейей, пытаясь передать понимание того, почему склонны выучиваться глубокие обобщённые паттерны, для чего пришлось рассмотреть кучу вопросов. Это научило меня тому, сколько вопросов приходится рассматривать, и из-за этого я теперь относительно менее охотно пытаюсь перерассмотреть те же вопросы тут.

[Ngo][13:02]

Пара вещей, о которых я хотел бы спросить Элиезера в дальнейшем:

  • Чем наиболее полезные для исследования согласования задачи похожи и чем различаются с доказательством математических теорем (которое, как мы согласились, может довольно медленно обобщаться до захвата мира)?
  • Что из себя представляют стоящие за этими задачами глубокие паттерны?
  • Можешь ли ты пересказать мою позицию?

Я собирался заявить, что второй пункт кажется самым перспективным для вынесения идей на публику.

Но раз это всё равно произойдёт благодаря работе с Аджейей, то не так уж важно.

[Yudkowsky][13:03]

Я всё равно могу быстренько попробовать и посмотреть, как получится.

[Ngo][13:03]

Выглядит полезно, если тебе хочется.

В то же время, я попробую просуммировать мои собственные относящиеся к делу интуитивные рассуждения об интеллекте.

[Yudkowsky][13:04]

Я не уверен, что я смогу пересказать твою позицию в не-соломенном виде. Для меня есть огромное видимое различие между “решать для нас согласование” и “выводить машинно-читаемые доказательства теорем”, и я не могу толком понять, почему ты считаешь, что рассуждения о втором скажут нам что-то важное про первое. Я не знаю и какое ещё ключевое действие по твоему мнению может быть проще.

[Ngo][13:06]

Вижу. Я рассматривал “решать научные задачи” как альтернативу для “доказывать теоремы”, ведь согласование – это (особенно сложный) пример научной задачи.

Но решил начать с обсуждения доказательства теорем, поскольку это выглядит яснее.

[Yudkowsky][13:07]

Можешь ли ты предсказать заранее, почему Элиезер считает “решать научные задачи” значительно более рискованным случаем? (А согласование – это точно не “особенно сложный пример научной проблемы”, кроме как разве что в смысле того, что в нём вообще есть какая-то наука; возможно, именно это настоящий камень преткновения; и это более сложная тема)

[Ngo][13:09]

Основываясь на твоих предыдущих комментариях, я сейчас предсказываю, что ты думаешь, что шаг, на котором решения должны стать понятными и оцениваемыми людьми, делает науку более рискованным случаем, чем доказательство теорем, в котором решения можно проверять автоматически.

[Yudkowsky][13:10]

Это один из факторов. Следует ли мне выложить основной, или лучше ты сам попробуешь его сформулировать?

[Ngo][13:10]

Требование многих знаний о реальном мире для науки?

Если не то, то выкладывай.

[Yudkowsky][13:11]

Это возможная формулировка. Я обычно формулирую через формулирование гипотез о реальном мире.

Как бы в этом тогда и есть задача ИИ.

Фактор 3: Многие интерпретации занятий наукой требуют придумывания экспериментов. Это включает в себя планирование, придание информации ценности, поиск способов проведения эксперимента для различения гипотез (что означает поиск начальных условий, приводящих к определённым последствиям).

[Ngo][13:12]

Для меня “моделирование реального мира” – это довольно плавный параметр. На одном конце мы имеем физические уравнения, которые едва отличимы от математических задач, а на другом что-то делающих людей с физическими телами.

Для меня выглядит правдоподобным создание агента, который будет решать научные задачи, но будет слабо осведомлён о себе (в смысле знания, что он ИИ, что он обучен, и т.д.).

Я ожидаю, что твой ответ будет о том, что моделирование себя – это один из глубоких паттернов решения задач, которые скорее всего будут у СИИ.

[Yudkowsky][13:15]

Перед сознанием-занимающимся-наукой стоит задача выяснения причин сенсорного опыта. (Она, на самом деле, встаёт и при человеческих занятиях математикой, и, возможно, неотделима от математики в целом; но это скорее говорит: “Упс, кажется, вы получили всё же науку” - а не что наука менее опасна, потому что похожа на математику.)

Ты можешь создать ИИ, который водит только красные машины, и которому никогда не приходилось водить синие. Это не означает, что его способности вождения-красных-машин не окажутся чрезвычайно близки к способностям вождения-синих-машин, если в какой-то момент внутренние рассуждения направятся на задачу вождения синей машины.

Факт существования глубокого паттерна вождения-машин, общего для красных и синих машин, не означает, что ИИ обязательно водил синие машины, или что ему обязательно водить синие машины, чтобы научиться водить красные. Но если синие машины – это огонь, то ты точно играешь с этим огнём.

[Ngo][13:18]

Для меня “сенсорный опыт” как “видео и аудио, приходящее от тела, которым я управляю” и “сенсорный опыт” как “файл, содержащий последние результаты от Большого Адронного Коллайдера” довольно сильно различаются.

(Я не говорю, что второго хватит для обучения ИИ-учёного, но, возможно, хватит чего-то, что ближе к второму, чем к первому)

[Yudkowsky][13:19]

Обязательно ли СИИ нужно моделировать себя в мире, чтобы заниматься наукой” и “не создали ли мы что-то, что может наткнуться на моделирование себя из-за случайности, произошедшей где-то в непонятных векторах чисел, особенно если это окажется хоть чуть-чуть полезно для решения внешних задач” – это два отдельных вопроса.

[Ngo][13:19]

Хмм, понимаю

[Yudkowsky][13:20][13:21][13:21]

Если попробовать создать ИИ, который занимается наукой буквально только через сбор наблюдений и никак каузально не связан с этими наблюдениями, то это, пожалуй, “опаснее математики, но может и менее опасно, чем активная наука”.

Всё ещё можно будет наткнуться на активного учёного, потому что это окажется простым внутренним решением для чего-нибудь, но внешняя задача будет лишена этого важного структурного свойства так же, как и чистая математика, не описывающая настоящие земные объекты.

И, конечно, моя реакция будет: “Нет ключевого действия, использующего только такие когнитивные способности.”

[Ngo][13:20][13:21][13:26]

Моя (довольно уверенная) априорная догадка такова, что что-то вроде самомоделирования, которое очень глубоко встроено в почти любой организм, это очень сложная (при отсутствии значительного оптимизационного давления в этом направлении) для случайного натыкания ИИ штука.

Но я не уверен, как это обосновать, кроме как вкапываясь в твои взгляды на то, чем являются глубокие паттерны решения задач. Так что, если ты всё ещё хочешь быстро попробовать это объяснить, было бы полезно.

“Каузальная связь” опять же выглядит плавным параметром – кажется, что количество связи, необходимое для науки, куда меньше, чем, скажем, для управления компанией.

[Yudkowsky][13:26]

Ключевая штука, кажется – не столько количество, сколько внутреннее устройство, необходимое для неё.

[Ngo][13:27]

Согласен.

[Yudkowsky][13:27]

Если ты вернёшься во времени в 16-й век и захочешь получить всего одну дозу mRNA-вакцины, это не особо отличается от получения миллиона сотни.

[Ngo][13:28]

Ладно, тогда дополнительная используемая мной предпосылка в том, что способность рассуждать о каузальном влиянии на мир для достижения целей – это что-то, чего можно иметь всего чуть-чуть.

Или много, и зависеть это может от обучающих данных.

Я ожидаю, что с этим ты не согласишься.

[Yudkowsky][13:29]

Если ты сведёшь ключевое действие к “просмотри данные от этого адронного коллайдера, который ты не строил и не запускал”, то это действительно важный шаг от “занимайся наукой” или “создай наносистемы”. Но я не вижу таких ключевых действий, так что так ли это важно?

Если есть промежуточные шаги, можно их описать как “мышление о каузальном воздействии только в этой заранее заданной, не изученной в общем области, в отдельной части когнитивной архитектуры, отделяемой от всех остальных частей”.

[Ngo][13:31]

Может, по-другому можно сформулировать как то, что у агента есть поверхностное понимание того, как оказывать влияние.

[Yudkowsky][13:31]

Что для тебя “поверхностное”?

[Ngo][13:31]

В духе того, как ты утверждаешь, что у GPT-3 есть поверхностное понимание языка.

[Yudkowsky][13:32]

То есть, он запомнил кучу поверхностных паттернов оказания-каузального-воздействия из большого набора данных, и это может быть подтверждено, например, предоставлением ему случая из-за пределов этого набора и наблюдением за тем, как он проваливается. Что, как мы думаем, подтвердит нашу гипотезу о том, что он не научился из набора данных глубоким обобщениям.

[Ngo][13:33]

Грубо говоря, да.

[Yudkowsky][13:34]

К примеру, нас совсем бы не удивило, если бы GPT-4 научился предсказывать “27 * 18”, но не “какова площадь прямоугольника 27 метров на 18 метров”… хотел бы я сказать, но Codex уверенно продемонстрировал, что от одного до другого довольно-таки близко.

[Ngo][13:34]

Один способ, как это можно было бы сделать: представь агента, быстро теряющего связность действий, когда он пытается действовать в мире.

К примеру, мы натренировали его проводить научные эксперименты, длящиеся несколько часов или дней.

И он очень хорош в понимании экспериментальных данных и вычленении из них паттернов

Но если его запустить на неделю или месяц, то он теряет связность похожим образом на то, как GTP-3 теряет связность, т.е. забывает, что он делает.

Как это так получилось: есть специфический навык обладания долговременной памятью, и мы никогда не тренировали агента в этом навыке, вот он его и не приобрёл (хоть он и может очень мощно и обобщённо рассуждать в короткие промежутки времени).

Это кажется схожим с моим аргументом о том, как агент может не моделировать себя, если мы его специально на это не тренировали.

[Yudkowsky][13:39]

Есть набор очевидных для меня тактик для осуществления ключевого действия с минимальной опасностью (я не думаю, что они делают задачу безопасной), и одна из них это, действительно “Ограничить ‘окно внимания“ или какой-нибудь ещё внутренний параметр, повышать его медленно и не повышать выше необходимого для решения задачи.”

[Ngo][13:41]

Это можно делать вручную, но я ожидаю, что это может быть сделано автоматически, через обучение агентов в окружении, где они не будут получать выгоду от длительного поддержания внимания.

[Yudkowsky][13:42]

(Каждый раз, когда кто-нибудь достаточно осторожный представляет тактику такого рода, он должен представить множество способов, которыми всё может пойти не так; к примеру, если в предоставленных данных или внутреннем состоянии агента есть что-то, зависящее от прошлых событий таким образом, что оно выдаёт о них информацию. Но, в зависимости от того, насколько суперинтеллектуальны иные части, иногда может и прокатить.)

[Ngo][13:43]

И если ты поместишь агентов в окружения, где им надо отвечать на вопросы, не особо взаимодействую с внешним миром, то у них не будет множества качеств, необходимых для достижения целей в реальном мире, потому что они не будут получать особого преимущества от оптимизации этих качеств.

[Yudkowsky][13:43]

Замечу, что TransformerXL обобщил своё окно внимания, он был натренирован на, кажется, 380 токенов или около того, а потом оказалось, что оно у него около 4000 токенов.

[Ngo][13:43]

Ага, обобщение на порядок меня не удивляет.

[Yudkowsky][13:44]

Наблюдав обобщение на один порядок, я лично теперь не удивился бы и двум.

[Ngo][13:45]

Я был бы несколько удивлён, но, полагаю, такое случается.

Настройка возможностей

[Yudkowsky][13:46]

Мне кажется, это всё крутится вокруг вопроса “Но что ты сделаешь с настолько ослабленным интеллектом?”. Если ты можешь спасти мир с помощью булыжника, я могу тебе обеспечить очень безопасный булыжник.

[Ngo][13:46]

Верно.

До сих пор я говорил “исследование согласования”, но был не очень конкретен.

Я полагаю, что тут должен быть контекст того, что первые вещи, которые мы делаем с таким интеллектом, это улучшаем общее благосостояние, продвигаем науку, и т.д.

И после этого мы в мире, где люди воспринимают перспективу СИИ куда серьёзнее

[Yudkowsky][13:48]

Я в целом ожидаю – хотя с какими-то шансами реальность может сказать: “Ну и что?” и удивить меня, это не настолько твёрдо определено как многие другие штуки – что у нас не будет длинной фазы “странного СИИ ~человеческого уровня” перед фазой “если ты разгонишь этот СИИ, он уничтожит мир”. Говоря в числах, скажем, меньше пяти лет.

Меня совершенно не удивит, если мир закончится до того, как беспилотные автомобили станут продаваться на массовом рынке. В некоторых вполне правдоподобных сценариях, которым я сейчас приписываю >50% вероятности, компании, разрабатывающие СИИ, смогут предоставить прототипы управляющего автомобилем ИИ, если потратят на это время, и это будет близкий-к-концу-света уровень технологий; но будет Много Очень Серьёзных Вопросов о свободном выпускании на дороги этого относительно нового недоказанного достижения машинного обучения. И их технология СИИ уже будет иметь свойство “можно разогнать до уничтожения мира” до того, как Земля получит свойство “беспилотные автомобили разрешены на массовом рынке”, просто потому, что на это не хватит времени.

[Ngo][13:52]

Тогда я ожидаю, что другая штука, которую можно сделать – это собрать очень большой объём данных, вознаграждающий ИИ за следование указаниям людей.

[Yudkowsky][13:52]

В других сценариях, конечно, беспилотное вождение становится возможным с ограниченным ИИ задолго до прорыва к СИИ. И в некоторых сценариях СИИ будет получен с помощью прорыва в чём-то уже довольно быстро масштабируемом, так что к моменту, или вскоре после него, когда технологию можно будет использовать для беспилотных автомобилей, она уже уничтожит мир по повороту рубильника.

[Ngo][13:53]

Когда ты говоришь о “разгонке СИИ”, что ты имеешь в виду?

Использовать больше вычислительных мощностей на тех же данных?

[Yudkowsky][13:53]

Запустить с увеличенными границами циклов for, или наибольшем количестве GPU, если точнее.

[Ngo][13:53]

В режиме обучения с подкреплением, или обучении с учителем, или без учителя?

Ещё: можно поподробнее про циклы for?

[Yudkowsky][13:56]

Я не думаю, что просто градиентный спуск на Большем Количестве Слоёв – как, скажем, сделали OpenAI с GPT-3, в противоположность Deepmind, которые создают более сложные артефакты вроде Mu Zero или AlphaFold 2, будет первым путём, который приведёт к СИИ. Я избегаю письменно высказывать предположения об умных путях к СИИ, и, я думаю, любой умный человек, если он действительно умный, а не просто приукрашенно-глупый, не будет говорить о том, чего, как ему кажется, не хватает в стратегии Большего Количества Слоёв или как на самом деле можно получить СИИ. С учётом этого, то, что нельзя просто запустить GPT-3 с большей глубиной поиска так, как можно с Mu Zero – это часть того, почему я считаю, что СИИ маловероятно будет устроен в точности как GPT-3; штука, которая нас всех убьёт, скорее будет чем-то, становящимся опаснее, если провернуть его рубильник, не чем-то, в чём в принципе нет рубильников, делающих это более опасным.

Консеквенциалистские цели против деонтологических целей

[Ngo][13:59]

Хм-м-м, окей. Давай быстренько вернёмся назад и подумаем, что полезного было в последние полчаса.

Я хочу отметить, что мои интуитивные рассуждения о ключевых действиях не очень конкретны; я довольно неуверен в том, как работает в такой ситуации геополитика, и в промежутке времени между СИИ-примерно-рядом-с-человеческим-уровнем и СИИ, предоставляющим экзистенциальные риски.

Так что мы можем продолжить обсуждать это, но я ожидаю, что буду часто говорить “ну, мы не можем исключить, что произойдёт X”, что, наверное, не самый продуктивный вид дискуссии.

Другой вариант – повкапываться в твои рассуждения о том, как работает мышление.

[Yudkowsky][14:03]

Ну, очевидно, в предельном случае, когда согласование недоступно нашей цивилизации, получится, что я успешно построил более благосклонную модель, всё же правильно отвергающую возможность успешного согласования для нашей цивилизации. В этом случае, я мог бы потратить короткий остаток своей жизни, споря с людьми, чьи модели достаточно благосклонны, чтобы включать невежество в какой-то области, из которой следует, что согласовать ничего не получится. Но предсказуемо именно так идут обсуждения на возможных мирах, где Земля обречена; так что кто-то помудрее на мета-уровне, будучи всё ещё невежественным на объектном уровне, предпочёл бы спросить: “Где, как ты думаешь, твоё знание, а не твоё невежество, говорит, что согласование должно быть осуществимым, и ты бы удивился, если бы оно не было?”.

[Ngo][14:07]

Справедливо. Хотя, кажется, концепция “ключевого действия” строится на обречённости по умолчанию.

[Yudkowsky][14:08]

Можно поговорить об этом, если тебе кажется, что это важно. Хотя я не думаю, что это обсуждение закончится за один день, так что, может, для удобства публикации нам стоит попробовать сфокусироваться на одной линии дискуссии?

Но мне кажется, что оптимизм многих людей основан на предположении, что мир можно спасти с помощью наименее опасных применений СИИ. Так что это большое ключевое расхождение в предпосылках.

[Ngo][14:09]

Согласен, что одна линия дискуссии лучше; готов сейчас принять концепцию ключевого действия.

Третий вариант в том, что я выскажу, как по-моему работает мышление, и посмотрим, насколько ты согласишься.

[Yudkowsky][14:12]

(Повторюсь, причина, по которой я не пишу “вот мои соображения, как работает мышление” в том, что прошлый опыт показал мне, что передача этой информации Другому Разуму, чтобы он мог её воспринять и ею оперировать, весьма сложна для моей текущей способности На Самом Деле Объяснять Что-Либо; такие вещи требуют долгих обсуждений и последующих домашних заданий, чтобы понять, как одна и та же структура возникает в разных случаях, в противоположность просто безрезультатному получению этого знания в готовом виде, и я пока не придумал подходящее домашнее задание.)

С радостью выслушаю твои заявления о мышлении и не соглашусь с ними.

[Ngo][14:12]

Отлично.

Окей, первое утверждение в том, что нечто вроде деонтологии – это довольно естественный способ работы разума.

[Yudkowsky][14:14]

(“Если бы это было так”, - подумал он, - “бюрократия и многотомные инструкции были бы куда эффективнее, чем на самом деле”)

[Ngo][14:14]

Хмм, наверно это была не лучшая формулировка, дай подумать, как сказать по другому.

Ладно, в нашей ранней дискуссии по email мы говорили о концепции “послушания”.

Мне кажется, что для разума столь же естественно иметь “послушание” в качестве приблизительной цели, как и максимизацию скрепок.

Если мы представим обучение агента на большом объёме данных, которые указывают в приблизительном направлении вознаграждения послушания, к примеру, то я представляю, что по умолчанию послушание будет ограничением, сравнимым с, скажем, человеческим инстинктом самосохранения.

(Который, очевидно, не настолько силён, чтобы остановить людей от кучи штук, которые ему противоречат – но всё равно это неплохое начало.)

[Yudkowsky][14:18]

Ха. Ты хотел сказать, сравнимым с человеческим инстинктом явной оптимизации совокупной генетической приспособленности?

[Ngo][14:19]

Генетическая приспособленность не была для наших предков понятной концепцией, так что, конечно, они не были направлены прямо на неё.

(И они не понимали, как её достичь)

[Yudkowsky][14:19]

Даже так, если ты не ожидаешь, вопреки общему мнению, что градиентный спуск будет работать совсем не так, как генная оптимизация, то суровая оптимизация X даст тебе лишь что-то, коррелировавшее с X в контексте обучения.

Это, конечно, одна из Больших Фундаментальных Проблем, которых я ожидаю в согласовании.

[Ngo][14:20]

Ладно, главный коррелят, обсуждения которого я встречал, это “делать то, что заставит человека поставить тебе высокую оценку, не то, чего он на самом деле хочет”

Мне любопытно, насколько ты обеспокоен этим конкретным коррелятом по сравнению с коррелятами в целом.

[Yudkowsky][14:21]

Ещё я вижу структурные причины, по которым натренировать на скрепки куда проще, чем на “послушание”. Даже если бы мы могли магически внушить простые внутренние желания, идеально отражающие простой внешний алгоритм, мы всё равно исполняем много отдельных экземпляров награждающей функции.

[Ngo][14:22]

Интересно было бы об этом послушать.

[Yudkowsky][14:22]

Ну, в первую очередь, почему книга с инструкциями настолько менее удобна и естественна, чем поведение охотника-собирателя?

ну знаешь, если деонтология столь же хороша, как консеквенциализм

(попробуешь ответить, или просто сказать?)

[Ngo][14:23]

Валяй

Мне, наверное, стоит прояснить, что я согласен, что нельзя просто заменить консеквенциализм деонтологией

Я скорее заявляю вот что: когда речь идёт о высокоуровневых концептах, мне не ясно, почему высокоуровневые консеквенциалистские цели естественнее высокоуровневых деонтологических целей.

[Yudkowsky][14:24]

Я отвечу, что реальность сложная, так что, когда ты пытаешься достичь в ней простой цели, ты получаешь сложное поведение. Если думать о реальности как о сложной функции Ввод->Вероятность(Вывод), то даже для простого Вывода, или простого набора Выводов, или высокого ожидаемого значения какой-нибудь простой функции от Вывода, может потребоваться очень сложный Ввод.

Люди не доверяют друг другу. Они представляют: “Ну, если я просто дам этому бюрократу цель, то он не будет честно рассуждать о том, чего будет стоить её достижение! О, нет! Потому, вместо этого, я, будучи аккуратным и достойным доверия человеком, сам придумаю ограничения и требования для действий бюрократа, такие, что я ожидаю, что, если он будет им следовать, результат его действий будет таким, как мне хочется.”

Но (в сравнении с сильным интеллектом, который наблюдает и моделирует сложную реальность и сам выбирает действия) действительно эффективная книга инструкций (исполняемая неким нечеловеческим разумом с достаточно большой и точной памятью, чтобы её запомнить) будет включать огромное (физически невозможное) количество правил “наблюдая то, делай это” для всех заковырок сложной реальности, которые можно выяснить из наблюдений.

[Ngo][14:28]

(Повторюсь, причина, по которой я не пишу “вот мои соображения как работает мышление” в том, что прошлый опыт показал мне, что передача этой информации Другому Разуму, чтобы он мог её воспринять и ею оперировать, весьма сложна для моей текущей способности На Самом Деле Объяснять Что-Либо; такие вещи требуют долгих обсуждений и последующих домашних заданий, чтобы понять, как одна и та же структура возникает в разных случаях, в противоположность просто безрезультатному получению этого знания в готовом виде, и я пока не придумал подходящее домашнее задание.)

(Отойдя от темы: нет хотя бы грубой оценки, когда твоя работа с Аджейей станет достоянием публики? Если ещё нескоро, то, может, полезно всё же выложить приблизительное описание этих соображений, пусть даже и в форме, в которой мало кто сможет их усвоить)

[Yudkowsky][14:30]

(Отойдя от темы: нет хотя бы грубой оценки, когда твоя работа с Аджейей станет достоянием публики? Если ещё нескоро, то, может, полезно всё же выложить приблизительное описание этих соображений, пусть даже и в форме, в которой мало кто сможет их усвоить)

Готов поверить в полезность, но, наверное, не сегодня?

[Ngo][14:30]

Согласен.

[Yudkowsky][14:30]

(Мы сейчас заходим за установленное время, мне нормально, но у тебя 11:30 (вроде), так что прервёмся, когда скажешь.)

[Ngo][14:32]

Да, 11:30. Я думаю, лучше всего прерваться тут. Я согласен с тем, что ты сказал про сложность реальности и с тем, что поэтому консеквенциализм ценнее. Моё заявление про “деонтологию” (бывшее в изначальной формулировке слишком общим, приношу извинения за это) было призвано прощупать твои соображения о том, какие типы мышления естественны или неестественны. Мне кажется, мы много ходили кругами вокруг этой темы.

[Yudkowsky][14:33]

Ага, и возобновить, наверное, стоит с того, почему я считаю “послушание” неестественным по сравнению с “скрепками” концептом – хоть это, наверное, и потребует затронуть тему того, что стоит за поверхностными умениями.

[Ngo][14:34]

Верно. Я думаю, что даже расплывчатое указание на это было бы довольно полезным (если этого пока нет онлайн?)

[Yudkowsky][14:34]

Насколько я знаю, пока нет, и я не хочу перенаправлять тебя на материалы Аджейи, даже если её это устраивает, потому что в таком случае наше обсуждение будет лишено нужного контекста для других.

[Ngo][14:35]

С моей стороны, мне стоит больше подумать о конкретных ключевых действиях, которые я захочу защищать.

В любом случае, спасибо за дискуссию :)

Дай мне знать, если знаешь, когда лучше продолжить; иначе определим это потом.

[Soares][14:37]

(вы тут делаете за меня мою работу)

[Yudkowsky][14:37]

Можно во вторник в то же время – хотя я могу быть не в такой хорошей форме из-за диеты, но стоит попробовать.

[Soares][14:37]

(сойдёт)

[Ngo][14:39]

Вторник не идеален, другие варианты есть?

[Yudkowsky][14:39]

Среда?

[Ngo][14:40]

Да, среда подойдёт

[Yudkowsky][14:40]

Тогда ориентировочно так

[Soares][14:41]

Здорово! Спасибо за разговор.

[Ngo][14:41]

Спасибо!

[Yudkowsky][14:41]

Спасибо, Ричард!

Последующее

Резюмирование Ричарда Нго

[Tallinn][0:35] (6 сентября)

Застрял здесь и хочу поблагодарить Нейта, Элиезера и (особенно) Ричарда, что они это делают! Здорово увидеть модель Элиезера настолько подробно. Я узнал несколько новых штук (как то, что ограничение информации в генах может быть важным фактором в развитии человеческого разума). Стоит добавить, маленький комментарий по деонтологии (пока не забыл): мне кажется, деонтология больше про координацию, чем про оптимизацию: деонтологическим агентам проще доверять, потому что об их действиях куда проще рассуждать (так же, как функциональный/декларативный код проще анализировать, чем императивный). Потому вот мой сильнейший аргумент в пользу бюрократии (и социальных норм): люди просто (и правильно) предпочитают, чтобы другие оптимизаторы (в том числе нечеловеческие) были деонтологическими для лучшего доверия/координации, и согласны платить за это компетенцией.

[Ngo][3:10] (8 сентября)

Спасибо, Яан! Я согласен, что большее доверие – хорошая причина хотеть от агентов, чтобы они на некотором высоком уровне были деонтологическими.

Я попробую просуммировать основные затронутые штуки; комментарии приветствуются: [ссылка на GDocs]

[Ngo] (8 сентября Google Doc)

1-я дискуссия

(В основном обобщения, а не цитаты)

Элиезера, по описанию Ричарда: “Чтобы избежать катастрофы, те, кто первыми создадут СИИ, должны будут а) в какой-то мере его согласовать, б) решить не разгонять его до уровня, на котором их техники согласования перестанут работать, и в) исполнить какое-то ключевое действие, которое помешает всем остальным разогнать его до такого уровня. Но наши техники согласования не будут достаточно хороши наши техники согласования будут очень далеки от подходящих на нашей текущей траектории наши техники согласования будут очень далеки от подходящих для создания ИИ, который безопасно выполнит такое ключевое действие.”

[Yudkowsky][11:05] (8 сентября комментарий)

“не будут достаточно хороши”

Сейчас не на пути к тому, чтобы быть достаточно хорошими, с большим разрывом. “Не будут достаточно хороши” – это буквально объявление о намерении лечь и помереть.

[Yudkowsky][16:03] (9 сентября комментарий)

Будут очень далеки от подходящих

Та же проблема. Я не делаю безусловные предсказания о будущем провале, как предполагает слово “будут”. При условии текущего или соседних с ним курсов, мы будем на порядок отставать от уровня выживания, если не произойдёт какого-нибудь чуда. Но это не предопределено; это всё ещё результат того, что люди будут делать то, что они, кажется, делают, а не неизбежность.

[Ngo][5:10]  (10 сентября комментарий)

А, вижу. Подойдёт ли добавление “на нашей текущей траектории”?

[Yudkowsky][10:46]  (10 сентября комментарий)

Да.

[Ngo] (8 сентября Google Doc)

Ричард, по описанию Ричарда: «Рассмотрим ключевое действие “совершить прорыв в исследовании согласования”. Вероятно, до момента, когда СИИ будет сильно сверхчеловеческим в поиске власти, он будет уже некоторое время сильно сверхчеловеческим в понимании мира и в выполнении ключевых действий вроде исследования согласования, не требующих высокой агентности (под которой я примерно подразумеваю: наличие крупных мотиваций и способность следовать им долгие промежутки времени).»

Элизер, по описанию Ричарда: “Есть глубокая связь между решением интеллектуальных задач и захватом мира – решение задач требует, чтобы мощный разум думал об областях, которые, будучи понятыми, предоставляют опасные когнитивно-доступные стратегии. Даже математические исследования включают в себя задачу постановки и преследования инструментальных целей – и если мозг, эволюционировавший в саванне, может быстро научиться математике, то так же правдоподобно, что ИИ, натренированный на математику, может быстро выучить множество других навыков. Так как почти никто не понимает глубинное сходство мышления, необходиомого для разных задач, расстояние между ИИ, который может проводить научные исследования, и опасно агентным СИИ меньше, чем почти все ожидают.”

[Yudkowsky][11:05] (8 сентября комментарий)

Есть глубокая связь между решением интеллектуальных задач и захватом мира.

По умолчанию есть глубокая связь между обтачиванием каменных топоров и захватом мира, если научиться обтачивать топоры в очень общем виде. “Интеллектуальные” задачи в этом отношении ничем не отличаются. Может и можно избежать положения по умолчанию, но это потребует некоторой работы, и её надо будет выполнить до того, как более простые техники машинного обучения уничтожат мир.

[Ngo] (8 сентября Google Doc)

Ричард, по описанию Ричарда: “Наш недостаток понимания того, как работает интеллект, склоняет нас к предположению, что черты, совместно проявляющиеся у людей, также будут совместными у ИИ. Но человеческий мозг плохо оптимизирован для задач вроде научных исследований и хорошо оптимизирован для поиска власти в окружающем мире, по причине, в том числе:

а) эволюции в жестоком окружении;

б) ограничения пропускной способности генома;

в) социальном окружении, вознаграждающем стремление к власти.

Напротив, нейросети, натренированные на задачи вроде математических или научных исследований, куда меньше оптимизированы для стремления к власти. К примеру, GPT-3 обладает знаниями и способностями к рассуждениям, но при этом обладает низкой агентностью и теряет связность действий на больших промежутках времени.”

[Tallinn][4:19] (8 сентября комментарий)

[хорошо оптимизирован для] поиска власти

Можно посмотреть на межполовые различия (хоть и не хочется полагаться на Пинкера :))

[Yudkowsky][11:31] (8 сентября комментарий)

Я не думаю, что женская версия Элиезера Юдковского не пыталась бы спасти / оптимизировать / захватить мир. Мужчины могут делать это по глупым причинам; умные мужчины и женщины используют одинаковые рассуждения, если они достаточно умны. К примеру, Анна Саламон и многие другие.

[Ngo] (8 сентября Google Doc)

Элиезер, по описанию Ричарда: “Во-первых, есть большая разница между большинством научных исследований и таким родом ключевых действий, о которых мы говорим – тебе потребуется объяснить, как ИИ с тем или иным навыком можно на самом деле использовать, чтобы предотвратить создание опасного ИИ. Во-вторых, GPT-3 обладает низкой агентностью, потому что она запомнила множество поверхностных паттернов таким способом, который непосредственно не масштабируется до обобщённого интеллекта. Интеллект состоит из глубоких паттернов решения задач, что фундаментально связывает его с агентностью.”

Обсуждение 8 сентября

Байка про бразильский университет

[Yudkowsky][11:00]

(Я тут.)

[Ngo][11:01]

Тоже.

[Soares][11:01]

Добро пожаловать!

(Я, в основном, просто не буду мешать.)

[Ngo][11:02]

Круто. Элиезер, ты прочитал резюмирование – и, если да, согласен ли с ним в общих чертах?

Ещё я думал про лучший способ подобраться к твоим соображениям о мышлении. Мне кажется, что начинать с темы про послушание против скрепок, наверное, не так полезно, как с чего-то ещё – к примеру, с определения, которое ты выдал ближе к началу предыдущей дискуссии про «поиск состояний, получающих высокую оценку при скармливании их в функцию результатов, а затем в функцию оценки результатов».

[Yudkowsky][11:06]

Сделал пару комментариев про формулировки.

Итак, с моей перспективы, есть такая проблема, что… довольно сложно учить людей некоторым общим вещам, в противоположность более конкретным. Вроде как, когда пытаются создать вечный двигатель, и хоть ты и убедил их, что первый проект неправильный, они просто придумывают новый, и новый достаточно сложен, что ты не можешь их убедить, что они неправы, потому что они сделали более сложную ошибку и теперь не могут уследить за её обличением.

Учить людей смотреть на стоящую за чем-то структуру часто очень сложно. Ричард Фейнман приводил пример в истории про «Смотрите на воду!», где люди в классе научились тому, что «среда с индексом преломления» должна поляризовать свет, отражённый от неё, но не осознавали, что солнечный свет, отражённый от воды будет поляризован. Моя догадка, что правильно это делается с помощью домашних заданий, и, к сожалению, тут мы в той области, где у меня особый математический талант, также как, например, Марселло талантливее меня в формальном доказательстве теорем. И людям без этого особого таланта приходится делать куда больше упражнений, чем мне, и я не очень понимаю, какие именно упражнения надо им дать.

[Ngo][11:13]

Сочувствую этой проблеме, могу попробовать выйти из скептического спорящего режима и войти в обучащийся режим, если думаешь, что это поможет.

[Yudkowsky][11:14]

Есть общее озарение о коммутативности в арифметике, и некоторым людям достаточно показать, что 1 + 2 = 2 + 1, чтобы они сами обобщили за пределы единицы и двойки и любых других чисел, которые можно туда поместить, и поняли, что строку чисел можно перемешать, и это не поменяет их сумму. Кому-то ещё, обычно детям, нужно показать, как на стол кладут два яблока и одно яблоко в разном порядке, и получается одно и то же число, а потом показать ещё, скажем, сложение купюр разного достоинства, если они не обобщили с яблок на деньги. Я припоминаю, что, когда я был достаточно маленьким ребёнком, я пытался прибавить 3 к 5, считая «5, 6, 7», и думал, что есть достаточно умный способ получить 7, если хорошенько постараться.

Быть в состоянии увидеть «консеквенциализм» это, с моей перспективы, что-то похожее.

[Ngo][11:15]

Другая возможность: можешь ли ты проследить источники этого убеждения, как оно вывелось из предшествующих?

[Yudkowsky][11:15]

Я не знаю, какие упражнения задавать людям, чтобы они смогли увидеть «консеквенциализм» повсюду, а не изобретали немножко отличающиеся формы консеквенциалистского мышления и не заявляли: «Ну, вот это же не консеквенциализм, правильно?».

Формулировка «поиск состояний, получающих высокую оценку при скармливании их в функцию результатов, а затем в функцию оценки результатов» была одной из попыток описать опасную штуку достаточно абстрактным способом, чтобы у людей, может быть, лучше получилось её обобщить.

[Ngo][11:17]

Другая возможность: можешь описать ближайшую к настоящему консеквенциализму штуку в людях, и как мы её получили?

[Yudkowsky][11:18][11:21]

Ок, так, часть проблемы в том… что прежде, чем ты выполнил достаточно упражнений для своего уровня таланта (и я, однажды, был выполнившим слишком мало, чтобы не думать, что может быть умный способ сложить 3 и 5, чтобы получить 7), ты будешь склонен считать, что только очень жёсткая формальная описанная тебе штука – «настоящая».

С чего бы твой двигатель должен подчиняться законам термодинамики. Это же не один из тех двигателей Карно из учебника!

В людях есть фрагменты консеквенциализма, или кусочки, чьё взаимодействие порождает частично неидеальное подобие консеквенциализма, и критично увидеть, что «выводы» людей в некотором смысле «работают» потому, что они подобны консеквенциалистским, и только пока это так.

Помести человека в одну среду, и он раздобудет еду. Помести человека в другую среду, и он опять раздобудет еду. Вау, разные изначальные условия, но один результат! Должно быть, внутри человека есть штуки, которые, что бы они ещё не делали, заодно эффективно ищут, какие моторные сигналы приведут в итоге к получению еды!

[Ngo][11:20]

Ощущается, что ты пытаешься вытолкнуть меня (и любого, кто будет это читать) из конкретного заблуждения. Догадываюсь, что из какого-то вроде «Я понимаю, что Элиезер говорит, так что теперь я вправе с этим не согласиться» или, может «Объяснения Элиезера не кажутся мне осмысленными, так что я вправе считать, что его концепции не осмысленны». Правильно?

[Yudkowsky][11:22]

Скорее… с моей точки зрения, даже после того, как я разубеждаю людей в возможности одного конкретного вечного двигателя, они просто пытаются придумать более сложный вечный двигатель.

И я не уверен, что с этим делать; это, кажется, происходит уже очень долго.

В конце концов, многое, что люди извлекают из моих текстов – это не глубокие принципы объектного уровня, на которые я пытался указать; они не понимают, скажем, байесианство как термодинамику, не начинают видеть байесовские структуры каждый раз, когда кто-нибудь видит что-то и меняет своё убеждение. Вместо этого они получают что-то более метауровневое, более обобщённое, приблизительный дух того, как рассуждать и спорить, потому что они потратили много времени под воздействием именно этого снова, и снова, и снова, на протяжении многих постов в блоге.

Может, нет способа заставить кого-то понять, почему исправимость неестественна, кроме как много раз проводить этого кого-то через задачу попробовать изобрести структуру агента, который позволяет тебе нажать кнопку выключения (но не пытается заставить тебя нажать кнопку выключения), и показывать, как каждая попытка проваливается. А потом ещё демонстрировать, почему попытка Стюарта Расселла с моральной неуверенностью порождает проблему полностью обновлённого (не-)уважения; и надеяться, что это приведёт к пониманию общего паттерна того, почему исправимость в целом противоречит структуре штук, которые хороши в оптимизации.

Только вот чтобы нормально делать упражнения, это надо делать из модели ожидаемой полезности. И тогда тебе просто скажут: «А, ну ладно, тогда я просто создам агента, который хорош в оптимизации, но не использует эти явные ожидаемые полезности, из-за которых все проблемы!»

И получается, если я хочу, чтобы кто-то поверил в те вещи, в которые верю я, по тем же причинам, что и я, мне придётся научить их, почему некоторые структуры мышления – это действительно неотъемлемые части агента, который хорошо что-то делает, а не конкретная формальная штука, предназначенная для манипуляции бессмысленными числами, а не существующими в реальном мире яблоками.

И я пару раз пытался написать об этом (к примеру «последовательные решения подразумевают непротиворечивую полезность»), но этого оказалось недостаточно, потому что люди не решали на дому даже столько же задач, сколько я, а пришлось бы больше, потому что это именно та конкретная область, в которой я талантлив.

Я не знаю, как решить эту проблему, поэтому я отступил на мета-уровень, чтобы говорить о ней.

[Ngo][11:30]

Я вспомнил о посте на LW, который назывался «Напиши тысячу дорог в Рим», емнип, он агитировал пытаться объяснять одно и то же как можно большим числом способов, в надежде, чтобы один из них сработал.

[Soares][11:31]

(Предложение, не обязательно хорошее: обозначив проблему на мета-уровне, попытаться обсуждать объектный уровень, отмечая проявления проблемы, когда они будут всплывать.)

[Ngo][11:31]

Поддерживаю предложение Нейта.

И буду пытаться держать в голове сложность метауровневой проблемы и отвечать соответственно.

[Yudkowsky][11:33]

Наверно, предложение Нейта правильное. Я напрямую высказал проблему, потому что иногда если тебе говорят о мета-проблеме, это помогает с объектным уровнем. Кажется, это помогает мне довольно сильно, а другим не так сильно, но всё же многим как-то помогает.

Мозговые функции и помпы исходов

[Yudkowsky][11:34]

Итак, есть ли у тебя конкретные вопросы про ищущее вводы мышление? Я попытался рассказать, почему я это упомянул (это другая дорога к Риму «консеквенциализма»).

[Ngo][11:36]

Сейчас посмотрим. Зрительная кора даёт нам впечатляющий пример мышления в людях и многих других животных. Но я бы назвал это «распознаванием паттернов», а не «поиском высокоцениваемых результатов».

[Yudkowsky][11:37]

Ага! И не совпадение, что нет животных, состоящих исключительно из зрительной коры!

[Ngo][11:37]

Окей, круто. Так ты согласишься, что зрительная кора делает что-то качественно иное, чем животное в целом.

Тогда другой вопрос: можешь ли ты охарактеризовать поиск высокооцениваемых результатов в животных (не в человеке)? Делают ли они это? Или это в основном про людей и СИИ?

[Yudkowsky][11:39]

К моменту, когда появляются височные доли или что-то подобное, внутри должно происходить достаточное количество чего-то вроде «что я такое вижу, что выдаёт мне такую картинку?» – это поиск правдоподобных вариантов в пространстве гипотез. И на человеческом уровне люди уже думают: «Могу ли я видеть это? Нет, у этой теории есть такая-то проблема. Как я могу её исправить?». Но правдоподобно, что у обезьяны нет низкоуровневого аналога этого; и ещё правдоподобнее, что части зрительной коры, которые делают что-то такое, делают это относительно локально и уж точно только в очень конкретной узкой области.

О, ещё есть мозжечок и моторная кора и всё такое, если мы говорим, скажем, о кошке. Им надо искать планы действий, которые приведут к поимке мыши.

Только то, что зрительная кора (очевидно) не выполняет поиск, не значит, что он не происходит где-то ещё в животном.

(На метауровне я заметил, что думаю «Но как ты можешь не видеть этого, просто смотря на кошку?», интересно, какие упражнения нужны, чтобы этому научиться.)

[Ngo][11:41]

Ну, смотря на кошку, я вижу что-то, но я не знаю, насколько хорошо оно соответствует твоим концептам. Так что просто помедленнее пока.

Кстати, мне интуитивно кажется, что моторная кора в каком-то смысле делает что-то похожее на зрительную – только наоборот. То есть вместо принимания низкоуровневых вводов и выдачи высокоуровневых выводов, она принимает высокоуровневые вводы и выдаёт низкоуровневые выводы. Согласишься ли ты с этим?

[Yudkowsky][11:43]

Это не интерпретируется напрямую в мою онтологию, потому что (а) я не знаю, что ты имеешь в виду под «высоким уровнем» и (б) картезианских агентов в целом можно рассматривать как функции, что не означает, что их можно рассматривать как не выполняющих поиск распознавателей паттернов.

С учётом этого, все части коры имеют на удивление схожую морфологию, так что не было бы особо удивительно, если бы моторная кора делала что-то похожее на зрительную. (А вот мозжечок…)

[Ngo][11:44]

Сигнал из зрительной коры, сообщающий «это кошка» и сигнал, входящий в моторную кору, сообщающий «возьми эту чашку» – это то, что я называю высокоуровневым.

[Yudkowsky][11:45]

Всё ещё не естественное разделение в моей онтологии, но есть неформальная штука, на которую это смахивает, так что, надеюсь, я могу принять и использовать это.

[Ngo][11:45]

Активация клеток сетчатки и активация моторных нейронов – это низкоуровневое.

Круто. Так, в первом приближении, мы можем думать о происходящем между тем, как кошка распознаёт мышь и тем, как моторная кора кошки производит конкретные сигналы, необходимые для поимки мыши, как о той части, где происходит консеквенциализм?

[Yudkowsky][11:49]

Весь агент-кошка находится между глазами кошки, которые видят мышь, и лапами кошки, двигающимися, чтобы поймать мышь. Агент-кошка, безусловно, является зачатком консеквенциалиста / ищет мышеловительные моторные паттерны / получает высоко оцениваемые конечные результаты, даже при изменении окружения.

Зрительная кора – это конкретная часть этой системы-рассматриваемой-как-однонаправленная-функция; эта часть, предположительно, без уверенности, не особо что-то ищет, или осуществляет только поиск в маленькой локальной очень конкретной области, не направленный сам по себе на поимку мыши; по своей природе эпистемический, а не планирующий.

С некоторой точки зрения можно заявить «ну, большая часть консеквенциализма происходит в оставшейся кошке, уже после того, как зрительная кора послала сигналы дальше». И это в целом опасный настрой рассуждений, склонный к провалам в духе безуспешного исследования каждого нейрона на наличие консеквенциализма; но в данном конкретном случае, есть значительно более консеквенциалистские части кошки, чем зрительная кора, так что я не буду против.

[Ngo][11:50]

А, более конкретная штука, которую я имел в виду: большая часть консеквенциализма находится строго между зрительной корой и моторной корой. Согласен/Не согласен?

[Yudkowsky][11:51]

Не согласен, мои знания нейроанатомии несколько устарели, но, мне кажется, моторная кора может посылать сигналы мозжечку.

(Я, может, ещё не соглашусь с глубинным смыслом, на который ты пытаешься указать, так что, наверное, проблема не решится просто через «ладно, включим ещё мозжечок», но, наверное, стоит сначала дать тебе ответить.)

[Ngo][11:53]

Я недостаточно разбираюсь в нейроанатомии, чтобы уточнять на этом уровне, так что я хотел попробовать другой подход.

Но, на самом деле, может, проще заявить «ладно, включим ещё мозжечок» и посмотреть, куда, по-твоему, приведёт нас несогласие.

[Yudkowsky][11:56]

Так как кошки (очевидно) (насколько я читал) не являются универсальными консеквенциалистами с воображением, то их консеквенциализм состоит из мелких кусочков, вложенных в них более чисто псевдо-консеквенциалистской петлёй генетической оптимизации, которая их создала.

У не поймавшей мышь кошки могут подправиться мелкие кусочки мозга.

И потом эти подправленные кусочки занимаются анализом паттернов.

Почему этот анализ паттернов без очевидного элемента поиска в итоге указывает в одном и том же направлении поимки мыши? Из-за прошлой истории анализов и поправок, направленных на поимку.

Получается, что сложно указать на «консеквенциалистские части кошки», посмотрев, какие части её мозга совершают поиск. Но с учётом этого, пока зрительная кора не поправляется при провале поимки мыши, она не входит в консеквенциалистскую петлю.

И да, это относится и к людям, но люди также делают и более явные поисковые штуки, и это часть причин, почему у людей есть ракеты, а у кошек нет.

[Ngo][12:00]

Окей, это интересно. То есть в биологических агентах три уровня консеквенциализма: эволюция, обучение с подкреплением и планирование.

[Yudkowsky][12:01]

В биологических агентах есть эволюция + локальные эволюционировавшие правила, в прошлом увеличивавшие генетическую приспособленность. Два вида таких локальных правил – это «оперантное обусловливание от успеха или провала» и «поиск среди визуализированных планов». Я бы не называл эти два вида правил «уровнями».

[Ngo][12:02]

Окей, понял. И когда ты говоришь о поиске среди визуализированных планов (так, как делают люди), то что значит, что это «поиск»?

К примеру, если я представляю, как пишу стихотворение строку за строкой, то я могу планировать только на несколько слов вперёд. Но каким-то образом стихотворение в целом, может быть довольно длинное, получается высокооптимизированным. Это типичный пример планирования?

[Yudkowsky][12:04][12:07]

Планирование – это один из способов преуспеть в поиске. Думаю, что, чтобы понять сложность согласования, лучше думать на том уровне абстракции, на котором видно, что в каком-то смысле опасность исходит от самого достаточно мощного поиска, а не от деталей процесса планирования.

Одним из ранних способов успешного обобщения моего представления об интеллекте, позже сформулированного как «вычислительно-эффективный поиск действий, приводящих к результатам, стоящим высоко в порядке предпочтений», была (неопубликованная) история о путешествиях во времени в глобально непротиворечивой вселенной.

Требование глобальной непротиворечивости означает, что все события между началом и концом Парадокса должны отображать исходные условия Парадокса в конечную точку, которая создаст эти же самые исходные условия в прошлом. Оно задаёт сильные и сложные ограничения на реальность, которые Парадокс должен соблюсти, используя свои исходные условия. Путешественник во времени должен пройти через определённый опыт, вызывающий состояние разума, в котором он совершит действия, которые подтолкнут прошлого его к получению того же опыта.

Парадокс в итоге, к примеру, убил создателей машины времени, потому что иначе они бы не позволили путешественнику вернуться во времени, или как-нибудь ещё не позволили бы временной петле сойтись, если бы были живы.

Для обобщения понятия мощной консеквенциалистской оптимизации мне было недостаточно всего двух примеров – человеческого интеллекта и эволюционной биологии. Иметь три примера – это было одно из упражнений, над которыми я работал – и с людьми, эволюцией и вымышленным Парадоксом у меня наконец «щёлкнуло».

[Ngo][12:07]

Хмм. Для меня, одна из специфических черт поиска – это рассмотрение множества возможностей. Но в примере стихотворения, я могу явно рассмотреть не так много вариантов, потому что я заглядываю вперёд только на несколько слов. Это кажется похожим на проведённое Абрамом разделение между отбором и контролем (https://www.alignmentforum.org/posts/ZDZmopKquzHYPRNxq/selection-vs-control). Разделяешь ли ты их так же? Или «контроль» системы (например, футболист, ведущий мяч по полю) в твоей онтологии тоже считается за поиск?

[Yudkowsky][12:10][12:11]

Я ещё попытаюсь говорить людям «представьте, что максимизатор скрепок – это вообще не разум, представьте, что это что-то вроде неисправной машины времени, которая выдаёт результаты, приводящие к существованию большего количества скрепок в итоге». Я не думаю, что это щёлкнет, потому что люди не выполняли тех же упражнений, что и я, и не испытывали того же «Ага!» при осознании того, как заметить часть самой концепции и опасности интеллекта в таких чисто материальных терминах.

Но конвергентные инструментальные стратегии, антиисправимость, эти штуки исходят из истинного факта о вселенной, заключающегося в том, что некоторые выводы машины времени на самом деле приведут к созданию большего количества скрепок в итоге. Опасность исходит не из деталей процесса поиска, а просто из того, что он достаточно сильный и эффективный. Опасность в самой территории, не просто в какой-то причудливой её карте; то, что создание наномашин, которые убьют программистов, приведёт к созданию большего количества скрепок – это факт про реальность, не про максимизатора скрепок!

[Ngo][12:11]

Ладно, я вспомнил про очень похожую идею в твоём тексте про Помпу Исходов (Скрытая сложность желаний).

[Yudkowsky][12:12]

Ага! Правда, история писалась в 2002-2003, когда я писал хуже, так что настоящий рассказ про Помпу Исходов никогда не был опубликован.

[Ngo][12:14]

Окей, тогда, думаю, естественный следующий вопрос: почему ты думаешь, что сильный эффективный поиск вряд ли будет как-нибудь ограничен или сдержан?

Что в поисковых процессах (как человеческий мозг) делает сложным их обучение с слепыми пятнами, деонтологическими указаниями, или чем-то в таком роде?

Хммм, это ощущается как вопрос, ответ на который я могу предсказать. (А может и нет, я не ожидал путешествий во времени.)

[Yudkowsky][12:15]

В каком-то смысле, они ограничены! Максимизирующий скрепки суперинтеллект и близко не так могущественен, как максимизирующая скрепки машина времени. Машина времени может делать что-то эквивалентное покупке лотерейных билетов из термодинамически рандомизированных лотерейных машин; суперинтеллект – нет, по крайней мере, без того, чтобы напрямую обдурить лотерею, или чего-то такого.

Но максимизирующий скрепки сильный обобщённый суперинтеллект эпистемологически и инструментально эффективен по сравнению с тобой, или со мной. Каждый раз, когда мы видим, что он может получить как минимум X скрепок, сделав Y, нам следует ожидать, что он получит X или больше скрепок, сделав Y или что-то, что приведёт к получению ещё большего количества скрепок, потому что он не пропустит стратегию, которую мы видим.

Обычно, когда мы представляем, что бы делал максимизатор скрепок, наш мозг представляет его несколько глупым, этого ограничения можно избежать, спрашивая себя, как бы скрепки получала машина времени, какого количества скрепок можно добиться в принципе и как. Рассказывать людям о машине времени вместо суперинтеллекта имеет смысл в частности затем, чтобы преодолеть представление о суперинтеллекте как о чём-то глупом. Это, конечно, не сработало, но попытаться стоило.

Я не думаю, что это в точности то, о чём ты спрашивал, но я хочу дать тебе возможность переформулировать что-нибудь прежде, чем я попытаюсь ответить на твои переформулированные мной вопросы.

[Ngo][12:20]

Ага, я думаю, то, что я хотел спросить – это что-то такое: почему нам следует ожидать, что из всего пространства возможных разумов, созданных оптимизационными алгоритмами, сильные обобщённые суперинтеллекты встречаются чаще, чем другие типы агентов, высокооцениваемых нашими обучающими функциями?

[Yudkowsky][12:20][12:23][12:24]

Это зависит от того, насколько сильно оптимизировать! И может ли градиентный спуск на конкретной системе оптимизировать достаточно сильно! Многие нынешние ИИ обучены градиентным спуском и всё ещё вовсе не стали суперинтеллектами.

Но ответ в том, что некоторые задачи сложны, и требуют решения множества подзадач, и простой способ решения всех этих подзадач – это использование перекрывающихся совместимых паттернов, обобщающихся по всем подзадачам. Чаще всего поиск будет натыкаться на что-то такое до того, как наткнётся на отдельные решения всех этих задач.

Я подозреваю, что этого нельзя достичь не очень большим градиентным спуском на мелкомасштабных трансформерах, так что я считаю, что GPT-N не достигнет суперинтеллектуальности до того, как мир закончат по-другому выглядящие системы, но я могу ошибаться.

[Ngo][12:22][12:23]

Предположим, мы достаточно сильно оптимизировали, чтобы получить эпистемическую подсистему, которая может планировать куда лучше любого человека.

Догадываюсь, что ты скажешь, что это возможно, но куда вероятнее сначала получить консеквенциалистского агента, который будет это делать (чем чисто эпистемического).

[Yudkowsky][12:24]

Я озадачен тем, что, по-твоему, значит иметь «эпистемическую подсистему», которая «может планировать лучше любого человека». Если она ищет пути во времени и выбирает высокооцениваемые для вывода, что делает её «эпистемической»?

[Ngo][12:25]

Предположим, например, что она не исполняет планы сама, только записывает их для людей.

[Yudkowsky][12:25]

Если она фактически может делать то же, что и скрепочная машина времени, как называние её «эпистемической» или как-то ещё делает её безопаснее?

По какому критерию она выбирает планы, на которые посмотрят люди?

Почему имеет значение, что её вывод пройдёт через причинно-следственные системы, называемые людьми, прежде чем попадёт в причинно-следственные системы, называемые синтезаторами белков, или Интернет, или ещё как-то? Если мы создали суперинтеллект для проектирования наномашин, нет очевидной разницы, посылает ли она строки ДНК сразу в синтезатор белков, или сначала люди читают её вывод и вручную перепечатывают его. Предположительно, ты тоже не думаешь, что безопасность исходит из этого. Тогда откуда?

(замечу: через две минуты у меня время полдника, предлагаю продолжить через 30 минут после этого)

[Ngo][12:28]

(перерыв на полчаса звучит неплохо)

Если мы рассмотрим зрительную кору в конкретный момент времени, как она решает, какие объекты распознавать?

Если зрительная кора может быть не-консеквенциалистской в том, какие объекты распознавать, почему планирующая система не может быть не-консеквенциалистской в том, какие планы выдавать?

[Yudkowsky][12:32]

Мне это кажется чем-то вроде очередного «смотрите на воду», предскажешь, что я скажу дальше?

[Ngo][12:34]

Предсказываю, что ты скажешь, что-то вроде этого: чтобы получить агента, который может создавать очень хорошие планы, надо применить на нём мощную оптимизацию. И если мы оптимизируем его через канал «оцениваем его планы», то у нас нет способа удостовериться, что агент действительно оптимизировался для создания по-настоящему хороших планов, а не для создания планов, которые получают хорошую оценку.

[Soares][12:35]

Кажется неплохим клиффхенгером?

[Ngo][12:35]

Ага.

[Soares][12:35]

Здорово. Давайте продолжим через 30 минут.

Гипотетически-планирующие системы, наносистемы и эволюционирование обобщения

[Yudkowsky][13:03][13:11]

Так, ответ, который ты от меня ожидал, в переводе на мои термины – это «Если ты совершаешь отбор для того, чтобы люди тыкнули «одобрить», прочитав план, то ты всё ещё исследуешь пространство вводов в поисках путей во времени к вероятным исходам (конкретно, к тому, что человек нажмёт «одобрить»), так что это всё ещё консеквенциализм.»

Но допустим, что у тебя получилось этого избежать. Допустим, ты получил именно то, чего хотел. Тогда система всё ещё выдаёт планы, которые, когда люди им следуют, идут по пути во времени к исходам, которые высоко оцениваются какой-то функцией.

Мой ответ: «Какого чёрта значит для планирующей системы быть не-консеквенциалистской? Это как не мокрая вода! Консеквенциалист – это не система, выполняющая работу, это сама работа! Можно представить, как её выполняет не мыслящая система вроде машины времени, и консеквенциализм никуда не денется, потому что вывод – это план, путь во времени!»

И это в самом деле такой случай, когда я чувствую чувство беспомощности от того, что я не знаю, как можно переформулировать, какие упражнения надо кому-то дать, через какой вымышленный опыт провести, чтобы этот кто-то начал смотреть на воду и видеть материал с индексом преломления, начал смотреть на фразу «почему планирующая система не может не быть консеквенциалистской по поводу того, какой план выдавать» и думать «Чёёё».

Мой воображаемый слушатель теперь говорит: «Но что, если наши планы не приводят к результатам, высоко оцениваемым какой-то функцией?», и я отвечаю: «Тогда ты лежишь на земле, хаотично дёргаясь, потому что если ты хотел какой-то другой результат больше, это значит, что ты предпочитал его выводу случайных моторных сигналов, что означает оптимизацию значения функции предпочтений, что, в свою очередь, означает выбор пути во времени, который скорее ведёт в определённом направлении, чем к случайному шуму

[Ngo][13:09][13:11]

Ага, это звучит как хороший пример той штуки, которую ты пытался объяснить в начале.

Всё ещё кажется, что здесь есть какое-то разделение по уровням, давай попробую поиграться с этим ощущением.

Окей, допустим, у меня есть планирующая система, которая для данной ситуации и цели выдаёт план, ведущий от ситуации к цели.

И допустим, что в качестве ввода мы ей даём ситуацию, в которой на самом деле не находимся, и она выдаёт соответствующий план.

Мне кажется, что есть разница между тем, как система является консеквенсциалистской, потому что создаёт консеквенциалистские планы (то есть, планы, которые, будучи применёнными в ситуации из ввода, привели бы к достижению некой цели), и другим гипотетическим агентом, который просто напрямую пытается достигать целей в ситуации, в которой на самом деле находится.

[Yudkowsky][13:18]

Для начала скажу, что если получится создать такую систему, чьё описание вполне осмысленно (мне кажется), то это, возможно, обеспечило бы некоторый запас безопасности. Она была бы заметно менее (хоть и всё ещё) опасной. Это потребовало бы неких структурных свойств, которые не факт, что можно получить просто градиентным спуском. Точно так же как естественный отбор по генетической приспособленности не даёт тебе явных оптимизаторов этой приспособленности, можно оптимизировать планирование в гипотетических ситуациях и получить что-то, что явно заботится не только строго о гипотетических ситуациях. Но это вполне последовательная концепция, и тот факт, что система не будет оптимизировать нашу вселенную, может сделать её безопаснее.

Сказав это, теперь я обеспокоюсь, что кто-то может подумать, что от того, что агент решает «гипотетические» задачи, возникает некая ключевая разница в агентности, в наличии или отсутствии чего-то, ассоциируемого с индивидуальностью, представлением целей и мотивацией. Если ты возьмёшь такого планировщика и дашь ему реальный мир в качестве гипотетического, та-да, теперь это старый добрый опасный консеквенциалист, которого мы представляли раньше, безо всяких изменений психологической агентности, «заботы» о чём-то или чего-то ещё такого.

Так что, думаю, важным упражнением было бы что-то вроде «Представь выглядящую безопасной систему, рассматривающую только гипотетические задачи. Теперь представь, что если ты возьмёшь это систему, и скармливаешь ей настоящие задачи, то она станет очень опасной. Теперь помедитируй над этим, пока не увидишь, что гипотетический планировщик очень-очень близок к более опасной версии себя, латентно имеет все его опасные свойства, и, вероятно, кучу уже опасных свойств тоже.»

«Видишь, ты думал, что источник опасности в внутреннем свойстве обращения внимания на реальный мир, но он не там, он в структуре планирования!»

[Ngo][13:22]

Я думаю, мы теперь ближе к тому, чтобы быть на одной волне.

Давай ещё немного посмотрим на такого гипотетического планировщика. Предположим, что он был обучен, чтобы минимизировать, скажем, враждебную составляющую его планов.

К примеру, его планы сильно регуляризованы, так что проходят только грубые общие детали.

Хмм, сложновато это описывать, но по сути мне кажется, что в таком сценарии есть компонент плана, кооперативный с его исполнителями, а есть враждебный.

И я согласен, что между ними нет никакой фундаментальной разницы.

[Yudkowsky][13:27]

«Что, если у зелья, которое мы варим, есть Хорошая Часть и Плохая Часть, и мы можем оставить только Хорошую…»

[Ngo][13:27]

Я не считаю, что они разделимы. Но, в некоторых случаях, можно ожидать, что одна часть будет куда больше другой.

[Soares][13:29]

(Моя модель других слушателей сейчас протестует «всё ещё есть разница между гипотетическим планировщиком, применённым к реальным задачам, и Большим Страшным Консеквенциалистом, она в том, что гипотетический планировщик выдаёт описания планов, которые работали бы, если их исполнить, тогда как большой страшный консеквенциалист исполняет их напрямую.»)

(Не уверен, что это полезно обсудить, или что это поможет Ричарду формулировать, но это как минимум то, что я ожидаю, будут думать некоторые читатели, если/когда это будет опубликовано.)

[Yudkowsky][13:30]

(Разница есть! Суть в осознании того, что гипотетический планировщик на расстоянии одной строки внешнего кода от того, чтобы стать Большой Страшной Штукой, так что стоит ожидать, что он тоже много как будет Большим и Страшным.)

[Ngo][13:31]

Мне кажется, что позиция Элиезера примерно такая: «на самом деле, почти что никакие режимы обучения не предоставят нам агентов, которые, определяя, какой план выдать, будут тратить почти всё своё время, думая над задачей объектного уровня, и очень мало времени о том, как манипулировать людьми, которым выдан план.»

[Yudkowsky][13:32]

Моя позиция в том, что у ИИ нет аккуратного разделения внутренних процессов на Части, Которые Ты Считаешь Хорошими и Части, Которые Ты Считаешь Плохими, потому что это отчётливое на твоей карте разделение, вовсе не отчётливо на карте ИИ.

С точки зрения максимизирующей-скрепки-выводящей-действия-машины-времени её действия не делятся на «создание скрепок на объектном уровне» и «манипуляция людьми рядом с машиной времени, чтобы обмануть их по поводу того, что она делает», они все просто физические выводы, проходящие сквозь время и приводящие к скрепкам.

[Ngo][13:34]

Ага, Нейт, это хороший способ сформулировать один из моих аргументов. И я согласен с Элиезером, что эти штуки могут быть очень похожими. Но я заявляю, что в некоторых случаях они могут быть и довольно отличающимися – к примеру, когда мы обучаем агента выдавать только короткое высокоуровневое описание плана.

[Yudkowsky][13:35]

Опасность в том, какую работу совершит агент, чтобы составить план. Я могу, к примеру, создать агента, который очень безопасно выдаёт высокоуровневый план по спасению мира:

echo «Эй, Ричард, спаси мир! «

Так что мне придётся спросить, какого вида «высокоуровневые» выводы планов для спасения мира ты предлагаешь, и почему сложно просто составить такой самим прямо сейчас, раз уж люди могут ему следовать. Тогда я посмотрю на ту часть, которую сложно придумать самим, и скажу, что вот тут для изобретения высокоуровневого плана агент должен понимать множество сложных штук о реальности и уметь точно прокладывать пути через время в области этих сложных штук; следовательно, он будет очень опасен, если он не прокладывает их в точности туда, куда ты надеешься. Или, как вариант, скажу: «Этот план не может спасти мир: тут недостаточно суперинтеллекта, чтобы он был опасен, но одновременно с этим недостаточно суперинтеллекта, чтобы опрокинуть игровую доску нынешнего очень обречённого мира.»

[Ngo][13:39]

Прямо сейчас я не представляю конкретного вывода планов для спасения мира, я просто пытаюсь лучше прояснить проблему консеквенциализма.

[Yudkowsky][13:40]

Смотри на воду; опасен не путь, которым ты хочешь выполнить работу, опасна сама работа. Что именно ты пытаешься сделать, неважно, как именно?

[Ngo][13:41]

Думаю, я соглашусь, что наши нынешние ограничения способностей не позволяют нам сказать многое о том, как работа будет выполняться, так что нам приходится в основном рассуждать о самой работе.

Но я тут говорю только про системы, которые достаточно умны, чтобы составлять планы и проводить исследования, находящиеся за пределами возможностей человечества.

И вопрос такой: можем ли мы подправить способ, которым работают такие системы, чтобы они тратили 99% своего времени на попытки решить задачу объектного уровня, и 1% времени на попытки манипулировать людьми, которые получат план? (Хоть это и не фундаментальные категории для ИИ, лишь грубая категоризация, возникающая из того, как мы его обучили – так же как «двигаться» и «думать» – это не фундаментально различные категории действий для людей, но то, как мы эволюционировали привело к значительному их разделению.)

[Soares][13:43]

(Я подозреваю, что Элиезер не имеет в виду «нам остаётся лишь рассуждать о самой работе, а не способах, которыми она будет выполняться, потому что наших способностей недостаточно для этого». Подозреваю недопонимание. Может быть, Ричарду стоит попытаться перефразировать аргумент Элиезера?)

(Однако, думаю, если Элиезер ответит на аргумент про 99%/1% – это тоже может всё прояснить.)

[Yudkowsky][13:46]

Ну, для начала, замечу, что система, проектирующая наносистемы, и тратящая 1% своего времени, раздумывая, как убить её операторов, смертельна. Это должна быть настолько маленькая доля мыслей, чтобы она никогда не закончила целую мысль «Если я сделаю X, это убьёт операторов.»

[Ngo][13:46]

Спасибо, Нейт. Я попробую перефразировать аргумент Элиезера.

Позиция Элизера (частично в моей терминологии): мы создадим ИИ, который может выполнять очень сложные мыслительные задачи, которые мы можем грубо описать как «искать среди множества вариантов тот, который будет удовлетворять нашим критериям.» ИИ, который может решить эти сложные задачи, должен будет уметь выполнять очень гибкий и обобщённый поиск, так что его будет очень сложно ограничить конкретной областью.

Хмм, это ощущается очень общим описанием, сейчас подумаю о его более конкретных заявлениях.

[Yudkowsky][13:54]

ИИ, который может решить эти сложные задачи, должен будет

Очень-очень мало что в пространстве устройства ИИ универсально необходимо. Первый ИИ, которого сможет создать наша технология, наверняка будет действовать некоторыми проще достижимыми и проще устроенными способами.

[Ngo][13:55]

Принято; спасибо за поимку этой неточности (тут и ранее).

[Yudkowsky][13:56]

Можно ли, в принципе, создать водителя-красных-машин, который совершенно неспособен водить синие машины? В принципе – конечно! Но первый водитель-красных-машин, на которого наткнётся градиентный спуск, наверняка будет и водителем-синих-машин.

[Ngo][13:57]

Элиезер, любопытно, в какой мере наше несогласие исходит из разного мнения о человеческом уровне.

Или, по-другому: мы и сейчас можем создавать системы, которые превосходят людей в некоторых задачах, но не имеют достаточно общих способностей поиска, чтобы даже попытаться захватить мир.

[Yudkowsky][13:58]

Несомненно, это так.

[Ngo][13:59]

Отставив в сторону ненадолго вопрос о ключевых действиях для спасения мира, какая часть твоей модели проводит линию между игроками в шахматы человеческого уровня и колонизаторами галактики человеческого уровня?

И говорит, что мы в состоянии согласовать до того, как они захватят мир, тех, которые превосходят нас на одних задачах, но не на других.

[Yudkowsky][13:59][14:01]

Тут нет очень простого ответа, но один из аспектов – это обобщённость между областями, которая достигается через изучение новых областей.

Люди, заметим, не были агрессивно оптимизированы естественным отбором для дыхания под водой и полётов в космос. Нет явного внешнего знака, что естественный отбор создал этих существ более обобщённо-способными, чем шимпанзе, обучая их на более широком наборе окружений и функций оценки.

[Soares][14:00]

(Прежде чем мы уйдём слишком далеко: спасибо за резюмирование! Мне кажется, это хорошо, я уверился в отсутствии ошибки взаимопонимания.)

[Ngo][14:03]

(Прежде чем мы уйдём слишком далеко: спасибо за резюмирование! Мне кажется, это хорошо, я уверился в отсутствии ошибки взаимопонимания.)

(Рад слышать, спасибо, что присматриваешь. Для ясности, я не интерпретировал слова Элиезера так, будто он заявляет исключительно об ограничении способностей; просто мне показалось, что он думает о значительно более продвинутых ИИ, чем я. Думаю, я плохо сформулировал.)

[Yudkowsky][14:05][14:10]

Есть затруднительные аспекты этой истории с естественным отбором, про который можно метафорически сказать, что он «понятия не имел, что делает». К примеру, после того, как ранний взлёт интеллекта, возможно, был вызван половым отбором по аккуратно обколотым топорам или чему-то такому, накопившаяся оптимизация мозга шимпанзе дошла до точки, где внезапно от сравнительного интеллекта стала сильно (сильнее, чем у шимпанзе) зависеть способность к составлению коварных планов против других людей – подзадача оптимизации генетической приспособленности. Так что продолжение оптимизации «совокупной генетической приспособленности» в той же саванне привело к оптимизации на подзадачу и способность «перехитрить других людей», для чего пришлось сильно оптимизировать «моделирование других людей», что оказалось возможно использовать на самом себе, что обратило систему на себя и сделало её рефлексивной, что сильно вложилось в обобщение интеллекта. До этого дошло несмотря на то, что всё это следовало той же самой функции вознаграждения в той же самой саванне.

Можно задать вопрос: возможен ли суперинтеллектуальный СИИ, который может быстро создать нанотехнологии и обладает некоторой пассивной безопасностью за счёт того, что он решает задачи вида «создать наносистему, которая делает X» примерно так же, как бобёр решает строительство дамб, имея набор специализированных способностей, но не имея обобщённой выходящей за пределы конкретных областей способности к обучению?

И в этом отношении надо заметить, что есть много, много, много штук, которые могу делать люди, но никакие другие животные, которые, думается, хорошо бы вложились в приспособленность этих животных, если бы был животный способ их делать. Они не делают себе железные когти. Так и не эволюционировала тенденция искать железную руду, пережигать дерево в уголь и собирать глиняные печи.

Животные не играют в шахматы, а ИИ играет, так что мы, очевидно, можем заставить ИИ делать штуки, которые животные не делают. С другой стороны, окружающая среда не ставит перед каким-нибудь видом вызов игры в шахматы.

Даже так: если бы какие-нибудь животные эволюционировали способность играть в шахматы, я точно ожидал бы, что нынешние ИИ размазывали бы их, потому что ИИ запущены на чипах, которые работают быстрее нейронов и совершают вычисления, невозможные для зашумлённых медленных нейронов. Так что это ненадёжный аргумент о том, что может делать ИИ.

[Ngo][14:09][14:11]

Да, хотя я замечу, что очень простые с человеческой инженерной точки зрения вызовы могут быть очень тяжёлыми для эволюции (например, колесо).

Так что эволюция животных-с-небольшой-помощью-от-людей могла бы привести к совсем другим результатам, чем эволюция животных-самих-по-себе. И аналогично, способность людей заполнять пробелы для не очень-то обобщённого ИИ может оказаться весьма значительной.

[Yudkowsky][14:11]

Тогда опять можно спросить: возможно ли создать ИИ, который хорош только в проектировании наносистем, которые приводят к сложным, но будем-надеяться-описываемым результатам в реальном мире, но не будет сверхчеловеческим в понимании и манипуляции людьми?

И я в общих чертах отвечу так: «Не исключено, хоть и не по умолчанию, я сейчас не знаю, как это сделать, это не простейший способ получить СИИ, способный создать наносистемы (и убить тебя), тебе потребуется получить водителя-красных-машин, который очень конкретно не способен водить синие машины.» Могу ли я объяснить, откуда я это знаю? Не уверен, обычно получается, что я объясняю X0, а слушатель не обобщает X0 до X и не применяет это для X1.

Это как спрашивать меня, как я вообще мог в 2008 году, до того, как кто-нибудь мог наблюдать AlphaFold 2, знать, что суперинтеллект мог бы решить проблему фолдинга белков; в 2008 году некоторые люди задавали мне этот вопрос.

Хотя та задача оказалась проще, чем нанотехнологии, я не сказал бы тогда, что AlphaFold 2 будет возможен на дочеловеческом уровне в 2021, или что он возникнет через пару лет после уровня обобщённости в области текста как у GPT-2.

[Ngo][14:18]

Какие важнейшие различия между решением фолдинга белков и проектированием наносистем, которые, скажем, самособираются в компьютер?

[Yudkowsky][14:20]

Определённо «Оказалось, использовать запоминание градиентным спуском огромной кучи поверхностных перекрывающихся паттернов и собрать из них большую когнитивную структуру, оказывающуюся консеквенциалистским наноинженером, который может только создавать наносистемы и так и не обзаводится достаточно общей способностью к обучению, чтобы понять общую картину и людей, всё ещё понимая цель ключевого действия, которое ты хочешь выполнить, проще, чем кажется» – это одно из самых правдоподобных заранее сформулированных чудес, которое мы можем получить.

Но это не то, что предсказывает моя модель, и я не верю, что, когда твоя модель говорит тебе, что ты сейчас умрёшь, стоит начать верить в конкретные чудеса. Нужно держать свой разум открытым для любых чудес, в том числе тех, которые ты не ожидал, и о которых не думал заранее, потому что на этот момент наша последняя надежда – на то, что будущее зачастую весьма удивительно – хотя, конечно, когда ты отчаянно пытаешься прокладывать пути с помощью плохой карты, негативные сюрпризы случаются куда чаще позитивных.

[Ngo][14:22]

Возможно, можно использовать такую метрику: сколько дополнительного вознаграждения получает консеквенциалистский наноинженер за то, что он начинает моделировать людей, сравнительно с тем, чтобы стать лучше в наноинженерии?

[Yudkowsky][14:23]

Но люди возникли совсем не так. Мы не добрались до атомной энергии, потому что получали от неё бонус к приспособленности. Мы добрались до атомной энергии, получая бонус к приспособленности от обтачивания кремневых топоров и составления коварных планов. Это довольно простое и локальное направление натренировало нам те же гены, которые позволяют нам строить атомные электростанции.

[Ngo][14:24]

Это в случае дополнительного ограничения необходимости выучиваться к новым целям каждое поколение.

[Yudkowsky][14:24]

А???

[Soares][14:24]

(Я так понял, Ричард имеет в виду «это следствие бутылочного горлышка генома»)

[Ngo][14:25]

Верно.

Хмм, кажется, мы уже об этом говорили.

Предложение: У меня есть пара отвлекающих меня вопросов, продолжим через 20 или 30 минут?

[Yudkowsky][14:27]

ОК

Какие важнейшие различия между решением фолдинга белков и проектированием наносистем, которые, скажем, самособираются в компьютер?

Хочу отметить, что этот вопрос для меня, хотя, может, не для других, выглядит потенциально ключевым. Т.е., если создание белковых фабрик, которые собирают нанофабрики, которые собирают наномашины, которые соответствуют какой-нибудь высокой сложной инженерной цели, не включает когнитивных вызовов, принципиально отличающихся от фолдинга белков, то, может быть, это можно безопасно сделать с помощью AlphaFold 3, такого же безопасного, как AlphaFold 2.

Не думаю, что мы можем так сделать. Хочу заметить для абстрактного Другого, что если для него обе задачи звучат как думательные штуки, и непонятно, почему нельзя просто сделать и другую думательную штуку с помощью думательной программы, то это тот случай, когда обладание конкретной моделью того, почему у нас нет такого наноинженера прямо сейчас, подскажет, что тут присутствуют конкретные разные думательные штуки.

Сонаправленность и ключевые действия

[Ngo][14:31]

В любом порядке:

  • Мне любопытно, как то, о чём мы говорим, относятся к твоему мнению о мета –уровневой оптимищации из AI-foom спора. (где ты говорил о том, как отсутствие какого-либо защищённого уровня оптимизации ведёт к мощным изменениям)

  • Мне любопытно, как твои заявления об «устойчивости» консеквенциализма (т.е. сложности направить мышление агента в нужном нам направлении) относится к тому, как люди полагаются на культуру, и в частности к тому, как люди, выращенные без культуры, получаются очень плохими консеквенциалистами

По первому: если очень сильно упрощать, то кажется, что есть два центральных соображения, которые ты уже долго пытаешься распространить. Одно – это некоторая разновидность рекурсивного улучшения, а другое – некоторая разновидность консеквенциализма.

[Yudkowsky][14:32]

Второй вопрос не очень осмыслен в моей родной онтологии? Люди, выращенные без культуры, не имеют доступа к константам окружения, предполагаемых их генами, ломаются, и оказываются плохими консеквенциалистами.

[Ngo][14:35]

Хмм, разумно. Окей, модифицирую вопрос: то, как люди рассуждают, действуют и т.д., сильно варьируется в зависимости от культуры, в которой они выросли. (Я в основном думаю о разных временах – вроде пещерных людей и современных.) Моя не слишком доверенная версия твоих взглядов на консеквенциалистов говорит, что обобщённые консеквенциалисты вроде людей обладают устойчивыми поисковыми процессами, которые не так просто изменить.

(Извини, если это не особо осмысленно в твоей онтологии, я несколько уставший.)

[Yudkowsky][14:36]

Что именно варьируется, что, как ты думаешь, я бы предсказал, должно оставаться постоянным?

[Ngo][14:37]

Цели, манеры рассуждений, деонтологические ограничения, уровень конформности.

[Yudkowsky][14:39]

А моя первая реакция на твой первый пункт такая: «У меня всего одно мнение об интеллекте, то, о чём именно я спорю, зависит от того, какие части этого мнения люди до странности упрямо отказываются принимать. В 2008, Робин Хансон до странности упрямо отказывался принимать то, как масштабируются способности, и есть ли вообще смысл рассматривать ИИ отдельно от эмов, так что я говорил о том, что видел самыми очевидными аргументами к тому, что Есть Много Места Над Биологией и что за человеческим уровнем начинается вжууууух».

«Потом выяснилось, что способности начали неслабо масшабироваться без самоулучшения. Это пример таких странных сюрпризов, которые кидает в нас Будущее, и может быть, случай, в котором я что-то упустил, потому что спорил с Хансоном, вместо того, чтобы представлять, как я мог бы быть неправ в обоих направлениях, не только в направлении, о котором другие люди хотят со мной спорить.»

«Ещё, люди были не способны понять, почему согласование сложное, застряв на обобщении концепта, который я называю консеквенциализмом. Предполагать, почему я говорил об этих двух штуках вместе – это предполагать, почему люди застревают в этих двух штуках вместе. И я думаю, что такие предположения бы переобъясняли случайные совпадения. Если бы Ян Лекун занимался эффективным альтруизмом, то мне пришлось бы объяснять что-нибудь другое, ведь люди, много контактирующие с EA, застревают в другом.»

Возвращаясь к твоему второму пункту, люди – сломанные штуки; если бы было возможно создать компьютеры на уровне ещё ниже че